微软发布自研AI模型套件减少对OpenAI依赖

微软推出三款自主开发的商业AI模型:MAI-Transcribe-1语音转录、MAI-Voice-1语音生成和MAI-Image-2图像创建,现已在Microsoft Foundry和MAI Playground平台上线。这些模型运行速度极快且价格极具竞争力,标志着微软意图减少对外部模型特别是OpenAI的依赖,强化自身技术实力。分析师认为,这并非替换合作伙伴,而是降低依赖性并增强控制力,竞争实际发生在架构层面而非单一模型层面。

微软正在通过发布三个自主开发的商用AI模型来挑战OpenAI,尽管双方仍保持战略合作关系。

新发布的模型套件

MAI-Transcribe-1(语音转录)、MAI-Voice-1(语音生成)和MAI-Image-2(图像创建)现已在Microsoft Foundry和MAI Playground平台上线。微软称这些模型运行速度"闪电般快速"且价格"极具竞争力"。

此举表明微软正努力减少对外部模型的依赖,特别是OpenAI的模型,以加强自身技术实力参与生成式AI竞赛。微软曾是OpenAI的早期投资者,但随着ChatGPT创造者与包括AWS在内的竞争对手建立合作关系,双方关系变得紧张。

Greyhound Research首席分析师Sanchit Vir Gogia表示:"这不是要用一个合作伙伴替换另一个,而是要减少依赖性并增强控制力。双方都在悄然减少对彼此的依赖,同时保持工作关系。"

模型技术特性

MAI-Transcribe-1支持25种语言的语音转文本转录,批量转录速度是微软Azure模型的2.5倍。微软称其为"最准确"的模型,具备大型云服务商中最佳的性价比。

MAI-Voice-1能够生成"自然、逼真的语音,富含细微差别、情感范围和表达力",专门为保持长篇内容中的说话人身份而设计。该模型可以"在一秒内"生成一分钟的音频,低GPU使用率使其快速且经济实惠。

MAI-Image-2在Copilot上实现了"超强"的图像生成性能和速度。它在Arena.ai排行榜上位列前三大模型家族之列,即将在Bing和PowerPoint中推出。微软表示该模型在摄影师、设计师和视觉叙述者的帮助下创建,能够满足"自然光照、准确肤色和纹理"的需求。

价格策略

微软在公告中强调了每个模型的经济性:MAI-Transcribe-1起价每小时0.36美元;MAI-Voice-1起价每百万字符22美元;MAI-Image-2文本输入起价每百万Token 5美元,图像输出每百万Token 33美元。

企业应用场景

MAI-Transcribe-1专为转录准确性"直接影响业务结果"的环境而构建,包括呼叫中心、多语言运营、法律工作流程和合规性要求严格的行业。该模型定位为在"嘈杂的现实环境中提供可靠转录,在这些环境中背景噪音、口音和不一致的音频输入会导致大多数系统失效"。

MAI-Voice-1专为AI驱动的语音交互而设计,如数字助手、自动通信系统和客户支持渠道。微软通过将控制机制"直接嵌入模型体验"来解决语音AI工具可能带来的身份滥用和同意问题等风险。

MAI-Image-2适用于"速度和一致性比创造力更重要"的企业内容管道,特别是解决"结构化输出,尤其是图像中的文本问题,这是大多数企业工作流程失败的地方"。

战略意义与竞争格局

Gogia指出,从表面看这些新模型确实与市场上已有产品竞争,但将它们视为任何单一模型家族的直接竞争对手是错误的。真正的竞争发生在架构层面。

"在模型层面,这里几乎没有根本性的新内容,"Gogia说。语音识别、语音合成和图像生成正快速商品化,因为整体准确性在提高,延迟在下降,成本在趋同。

当前企业在AI采用方面被复杂性所压倒,包括多个供应商、不一致的定价、分散的治理和集成挑战。微软正寻求将这些组件整合到单一环境中。"微软通过将这些模型嵌入企业已在使用的生态系统来降低这种复杂性。"

如果平台能够控制模型选择、评估和部署的环境,模型本身就变得可互换。当这种情况发生时,"议价能力从模型创建者转向平台所有者。这才是真正的竞争举措。"

机遇与挑战

微软将模型整合到现有生态系统中创造了直接优势:采购更简单,集成更容易,治理更易管理。但这也带来了风险。锁定现在可能发生在控制层面,而不仅仅是模型层面。一旦工作流程、数据管道和治理框架嵌入平台,切换就变得"结构性困难"。

还存在实际约束,如区域可用性和语言支持问题,这些往往是企业试点项目"悄然失败"的原因。监管环境进一步复杂化了部署,特别是在数据驻留和合规性至关重要的行业。

Gogia表示:"企业已经在与AI扩张作斗争。在没有清晰架构的情况下添加更多模型会增加这种负担。"此外,"真正"的成本不是"标题定价",推理成本只是等式的一部分,编排、评估、治理和内部运营开销都会累积。

对企业的最终影响"明确且令人不安":它们不再选择最佳模型,而是选择模型运行的最佳环境。"一旦选择了环境,逆转将会很困难。"

Q&A

Q1:微软新发布的MAI模型套件包括哪些产品?

A:微软发布了三个自主开发的AI模型:MAI-Transcribe-1用于语音转录,支持25种语言;MAI-Voice-1用于语音生成,能产生自然逼真的语音;MAI-Image-2用于图像创建,在Arena.ai排行榜位列前三。这些模型现已在Microsoft Foundry和MAI Playground平台上线。

Q2:微软为什么要开发自己的AI模型而不继续依赖OpenAI?

A:虽然微软与OpenAI仍保持战略合作,但随着ChatGPT创造者与AWS等竞争对手建立合作关系,双方关系变得紧张。微软此举旨在减少对外部模型的依赖,增强自身技术控制力,同时降低企业在AI采用中面临的多供应商复杂性问题。

Q3:使用微软MAI模型套件的成本如何?

A:微软强调了模型的经济性:MAI-Transcribe-1起价每小时0.36美元,MAI-Voice-1起价每百万字符22美元,MAI-Image-2文本输入每百万Token 5美元,图像输出每百万Token 33美元。不过专家提醒,真正成本还包括编排、评估、治理和内部运营开销。

来源:Computerworld

0赞

好文章,需要你的鼓励

2026

04/08

14:13

分享

点赞

邮件订阅