微软在周四发布了三款自主研发的机器学习模型的公开预览版本,分别专注于语音识别、语音合成和图像生成功能。
这一举措让这家Windows公司看起来更像是OpenAI的直接竞争对手,而非投资者。截至去年10月,微软持有的OpenAI股份价值约为1350亿美元。
这三款模型包括:MAI-Transcribe-1语音识别模型,能够在25种语言中提供企业级准确度,GPU成本比主要竞争对手低约50%;MAI-Voice-1语音生成模型,据称能在单个GPU上不到一秒钟内生成60秒的音频;以及MAI-Image-2文本转图像模型,这可能会加剧数字艺术家的担忧。
值得注意的是,OpenAI恰好也提供自己的语音识别、语音生成和文本转图像模型。
微软的这些模型通过Foundry平台提供,该平台原名Azure AI Studio,是一个用于开发智能体和应用程序的平台。
微软Azure AI Foundry Models产品团队负责人Naomi Moneypenny在博客文章中介绍了这些模型。
"这些模型已经在为我们自己的产品提供支持,如Copilot、Bing、PowerPoint和Azure Speech,现在它们专门在Foundry上提供给开发者使用,"她写道。
这些模型非常适合常见的企业使用场景,比如设计能够识别语音并生成回应的客户支持智能体。Moneypenny建议,这些模型还可用于为大型活动和会议提供字幕,用于媒体字幕制作和存档,用于教育培训,以及从焦点小组收集客户和市场洞察等。
微软已经在内部使用这些模型——Copilot的Audio Expressions功能运行在MAI-Voice-1上,而Copilot的语音模式转录服务使用MAI-Transcribe-1。
开发者可以通过Azure Speech试用这两个模型。
当微软宣布已重新协商与OpenAI的协议时,这家Windows公司表示合作关系将至少持续到2032年,前提是AI市场不会崩溃。但它也强调了竞争领域。"微软现在可以独立或与第三方合作追求人工通用智能,"公司当时表示。仅这一声明就让微软能够在人工通用智能研究的名义下在AI领域独立发展。
微软有一些理由需要对冲风险。今年1月,微软的OpenAI关系显示出紧张迹象,当时微软投资者对公司承受OpenAI大量支出的风险表示不满。根据The Information发布的内部预测,这家AI热潮领导者正在烧钱,预计今年将亏损140亿美元。据报道,一项专注于企业客户的内部精简工作正在进行,上个月底还关闭了耗费大量Token但并不特别有用的视频生成器Sora 2。
两周前,微软首席执行官萨蒂亚·纳德拉宣布了影响公司Copilot产品和超级智能工作的领导层变动。Jacob Andreou被任命领导公司的Copilot体验,担任执行副总裁,负责微软消费者和商业产品,直接向纳德拉汇报。Copilot现在专注于四个领域:Copilot体验、Copilot平台、Microsoft 365应用和AI模型。
据推测,Andreou的AI模型职责不仅仅是与OpenAI联络了解可用模型。如果微软的模型野心还不够明显的话,纳德拉表示Mustafa Suleyman将继续领导微软的AI研究——如果你的野心是继续依赖OpenAI,这完全没有必要。
Q&A
Q1:微软发布的三款AI模型分别有什么功能?
A:微软发布了三款AI模型:MAI-Transcribe-1是语音识别模型,支持25种语言,GPU成本比竞争对手低50%;MAI-Voice-1是语音生成模型,能在单个GPU上不到一秒生成60秒音频;MAI-Image-2是文本转图像模型,可以根据文本描述生成图像。
Q2:这些AI模型可以用在哪些场景?
A:这些模型适合多种企业场景,包括设计客户支持智能体进行语音识别和回应生成、为大型活动和会议提供字幕服务、媒体字幕制作和存档、教育培训,以及从焦点小组收集客户和市场洞察等。微软自己的Copilot产品已在使用这些模型。
Q3:微软为什么要自研AI模型与OpenAI竞争?
A:微软需要对冲风险,因为投资者对公司承受OpenAI大量支出风险表示不满。OpenAI预计今年亏损140亿美元,且微软在重新协商协议时明确表示可以独立或与第三方合作追求人工通用智能,这为微软独立发展AI技术提供了空间。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。