微软正在将AI模型发展重点扩展到传统大语言模型之外。该公司在周四宣布,将发布三款全新的AI模型:全新的语音和文本转录模型,以及第二代自主研发的图像模型。
语音和文本转录模型突破
这些语音和文本转录模型是微软首次推出的同类产品。转录模型能够将录音内容翻译成25种不同语言的文字,专门为视频字幕生成、会议转录和语音智能体而设计。语音模型则可以创建长达60秒的音频录制内容。
图像生成能力全面升级
微软表示,其第二代图像模型在生成速度和真实感方面都有显著提升,相比上一版本有了明显改进。这些模型现已在微软的Foundry和MAI平台上线,未来计划将MAI-Image-2集成到Bing搜索和PowerPoint演示软件中。
战略布局多元化AI市场
这些新模型清晰地表明微软正在寻求扩大其在AI市场的产品线覆盖。微软的Copilot已成为企业用户最受欢迎的聊天机器人之一,特别是对于已经使用微软Office 365套件和Azure云服务的用户。除了现已过时的原始图像模型外,微软此前主要专注于基于文本的模型,努力在众多竞争对手中将自己定位为安全、企业友好的选择。其最新的AI工具Copilot Cowork和Copilot Health就是这一策略的证明。
传统科技巨头的资源优势
这些模型也提醒人们,微软作为传统科技公司,拥有足够的资金和计算资源来投入这些"支线任务",这是即使像OpenAI这样价值数十亿美元的初创公司也无法始终承担的。上周,OpenAI确认将停止其Sora AI视频应用,声称将重新聚焦于核心业务。2026年的AI行业一直在努力证明其工具在工作场所的实用性,特别是在Anthropic的Claude Code超越竞争对手的情况下。
生成媒体的成本挑战
生成式媒体,比如驱动AI图像和视频生成的模型,需要大量的计算和能源资源来运行,这些资源本可以用于其他地方。谷歌作为另一家在AI研究上投入数十亿美元预算的传统科技公司,本周表示不会放弃生成式媒体,但将努力让模型更具成本效益和能效,正如其新推出的Veo 3.1 Lite视频模型所体现的那样。
Q&A
Q1:微软发布的三款新AI模型分别有什么功能?
A:微软发布了语音转录模型、文本转录模型和第二代图像模型。转录模型可以将录音转换为25种语言的文字,主要用于视频字幕、会议转录和语音智能体;语音模型能创建长达60秒的音频;图像模型在生成速度和真实感方面都有显著提升。
Q2:这些AI模型什么时候能用上?
A:这些模型现已在微软的Foundry和MAI平台上线提供服务。未来微软计划将MAI-Image-2图像模型集成到Bing搜索引擎和PowerPoint演示软件中,开发者可以查看相关定价信息。
Q3:为什么微软要开发这些非文本类的AI模型?
A:微软希望扩大在AI市场的产品覆盖范围,超越传统的大语言模型。作为传统科技巨头,微软拥有足够的资金和计算资源投入这些多样化的AI技术研发,这是许多初创公司无法承担的,有助于在激烈的AI竞争中保持优势地位。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。