微软正在通过发布三个自主开发的商用AI模型来挑战OpenAI,尽管双方仍保持战略合作关系。
新发布的模型套件
MAI-Transcribe-1(语音转录)、MAI-Voice-1(语音生成)和MAI-Image-2(图像创建)现已在Microsoft Foundry和MAI Playground平台上线。微软称这些模型运行速度"闪电般快速"且价格"极具竞争力"。
此举表明微软正努力减少对外部模型的依赖,特别是OpenAI的模型,以加强自身技术实力参与生成式AI竞赛。微软曾是OpenAI的早期投资者,但随着ChatGPT创造者与包括AWS在内的竞争对手建立合作关系,双方关系变得紧张。
Greyhound Research首席分析师Sanchit Vir Gogia表示:"这不是要用一个合作伙伴替换另一个,而是要减少依赖性并增强控制力。双方都在悄然减少对彼此的依赖,同时保持工作关系。"
模型技术特性
MAI-Transcribe-1支持25种语言的语音转文本转录,批量转录速度是微软Azure模型的2.5倍。微软称其为"最准确"的模型,具备大型云服务商中最佳的性价比。
MAI-Voice-1能够生成"自然、逼真的语音,富含细微差别、情感范围和表达力",专门为保持长篇内容中的说话人身份而设计。该模型可以"在一秒内"生成一分钟的音频,低GPU使用率使其快速且经济实惠。
MAI-Image-2在Copilot上实现了"超强"的图像生成性能和速度。它在Arena.ai排行榜上位列前三大模型家族之列,即将在Bing和PowerPoint中推出。微软表示该模型在摄影师、设计师和视觉叙述者的帮助下创建,能够满足"自然光照、准确肤色和纹理"的需求。
价格策略
微软在公告中强调了每个模型的经济性:MAI-Transcribe-1起价每小时0.36美元;MAI-Voice-1起价每百万字符22美元;MAI-Image-2文本输入起价每百万Token 5美元,图像输出每百万Token 33美元。
企业应用场景
MAI-Transcribe-1专为转录准确性"直接影响业务结果"的环境而构建,包括呼叫中心、多语言运营、法律工作流程和合规性要求严格的行业。该模型定位为在"嘈杂的现实环境中提供可靠转录,在这些环境中背景噪音、口音和不一致的音频输入会导致大多数系统失效"。
MAI-Voice-1专为AI驱动的语音交互而设计,如数字助手、自动通信系统和客户支持渠道。微软通过将控制机制"直接嵌入模型体验"来解决语音AI工具可能带来的身份滥用和同意问题等风险。
MAI-Image-2适用于"速度和一致性比创造力更重要"的企业内容管道,特别是解决"结构化输出,尤其是图像中的文本问题,这是大多数企业工作流程失败的地方"。
战略意义与竞争格局
Gogia指出,从表面看这些新模型确实与市场上已有产品竞争,但将它们视为任何单一模型家族的直接竞争对手是错误的。真正的竞争发生在架构层面。
"在模型层面,这里几乎没有根本性的新内容,"Gogia说。语音识别、语音合成和图像生成正快速商品化,因为整体准确性在提高,延迟在下降,成本在趋同。
当前企业在AI采用方面被复杂性所压倒,包括多个供应商、不一致的定价、分散的治理和集成挑战。微软正寻求将这些组件整合到单一环境中。"微软通过将这些模型嵌入企业已在使用的生态系统来降低这种复杂性。"
如果平台能够控制模型选择、评估和部署的环境,模型本身就变得可互换。当这种情况发生时,"议价能力从模型创建者转向平台所有者。这才是真正的竞争举措。"
机遇与挑战
微软将模型整合到现有生态系统中创造了直接优势:采购更简单,集成更容易,治理更易管理。但这也带来了风险。锁定现在可能发生在控制层面,而不仅仅是模型层面。一旦工作流程、数据管道和治理框架嵌入平台,切换就变得"结构性困难"。
还存在实际约束,如区域可用性和语言支持问题,这些往往是企业试点项目"悄然失败"的原因。监管环境进一步复杂化了部署,特别是在数据驻留和合规性至关重要的行业。
Gogia表示:"企业已经在与AI扩张作斗争。在没有清晰架构的情况下添加更多模型会增加这种负担。"此外,"真正"的成本不是"标题定价",推理成本只是等式的一部分,编排、评估、治理和内部运营开销都会累积。
对企业的最终影响"明确且令人不安":它们不再选择最佳模型,而是选择模型运行的最佳环境。"一旦选择了环境,逆转将会很困难。"
Q&A
Q1:微软新发布的MAI模型套件包括哪些产品?
A:微软发布了三个自主开发的AI模型:MAI-Transcribe-1用于语音转录,支持25种语言;MAI-Voice-1用于语音生成,能产生自然逼真的语音;MAI-Image-2用于图像创建,在Arena.ai排行榜位列前三。这些模型现已在Microsoft Foundry和MAI Playground平台上线。
Q2:微软为什么要开发自己的AI模型而不继续依赖OpenAI?
A:虽然微软与OpenAI仍保持战略合作,但随着ChatGPT创造者与AWS等竞争对手建立合作关系,双方关系变得紧张。微软此举旨在减少对外部模型的依赖,增强自身技术控制力,同时降低企业在AI采用中面临的多供应商复杂性问题。
Q3:使用微软MAI模型套件的成本如何?
A:微软强调了模型的经济性:MAI-Transcribe-1起价每小时0.36美元,MAI-Voice-1起价每百万字符22美元,MAI-Image-2文本输入每百万Token 5美元,图像输出每百万Token 33美元。不过专家提醒,真正成本还包括编排、评估、治理和内部运营开销。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。