OpenAI与微软发布全新语音生成模型

OpenAI和微软发布了两款新的语音人工智能模型。OpenAI的gpt-realtime被称为其最强语音模型，可生成更自然的语音并能在句中改变语调和语言。微软推出的MAI-Voice-1模型已集成到Copilot助手中，具有高硬件效率，单个GPU即可在一秒内生成一分钟音频。两家公司还发布了MAI-1-preview模型，采用专家混合架构提高效率。

OpenAI和微软公司今日联合发布了两款专门针对语音生成优化的人工智能模型。

OpenAI的全新算法gpt-realtime被称为其功能最强大的语音模型。该人工智能产生的语音比ChatGPT开发者此前在该领域的产品更加自然。它还能够在句子中途改变语调和语言。

据OpenAI介绍，gpt-realtime特别擅长遵循指令。这使得在应用程序中使用该模型的开发者能够针对特定任务对其进行定制。例如，构建技术支持助手的软件团队可以指示gpt-realtime在某些提示回复中引用知识库文章。

将该模型应用于技术支持场景的开发者还可以访问新的图像上传工具。使用此功能，客户服务聊天机器人可以让用户上传需要故障排除的应用程序截图。OpenAI还预计客户会将此功能用于其他各种任务。

开发者可以通过OpenAI Realtime API访问gpt-realtime。这是一个应用程序编程接口，允许客户与ChatGPT开发者的语音和多模态模型进行交互。作为今日产品更新的一部分，OpenAI将该API正式发布，并增加了多项新功能。

"现在您可以在Realtime API会话中保存和重复使用提示——包括开发者消息、工具、变量以及用户/助手示例消息，"OpenAI研究人员在博客文章中详细说明。

微软在gpt-realtime发布同时详细介绍的语音人工智能模型名为MAI-Voice-1。该模型最初在公司的Microsoft Copilot助手中提供。据该公司介绍，该模型为助手提供功能支持，能够总结天气预报等更新信息，并从文本生成播客。

微软表示MAI-Voice-1是业界硬件效率最高的语音模型之一。它可以使用单个图形处理单元在不到一秒的时间内生成一分钟的音频。微软没有提供额外信息，例如用于测量该模型单芯片性能的GPU型号。

该公司分享了关于MAI-1-preview的更多细节，这是今日发布的第二个新人工智能模型。该公司使用15,000个英伟达公司的H100加速器训练了这个算法。H100是该芯片制造商在2022年推出时的旗舰数据中心显卡。

与微软的新语音模型一样，MAI-1-preview针对效率进行了优化。神经网络在处理提示时通常会激活所有参数或配置设置。MAI-1-preview采用专家混合架构，允许它仅激活参数的子集，从而显著减少硬件使用。

发布时，MAI-1-preview通过API向有限数量的测试人员提供。它将在未来几周内推广到Microsoft Copilot。

该公司暗示计划在未来几个月内推出MAI-1-preview的改进版本。即将推出的模型将使用GB200设备集群进行训练。每个系统结合了72个Blackwell B200芯片（英伟达最新最先进的数据中心GPU）和36个中央处理器。

"我们不仅将在这里追求进一步的进展，而且相信协调一系列专门模型来服务不同的用户意图和使用场景将释放巨大价值，"微软人工智能部门的研究人员在博客文章中写道。

Q&A

Q1：gpt-realtime语音模型有什么特殊功能？

A：gpt-realtime是OpenAI最强大的语音模型，能够产生比以往更自然的语音，还可以在句子中途改变语调和语言。它特别擅长遵循指令，开发者可以针对特定任务进行定制，比如让技术支持助手引用知识库文章。

Q2：MAI-Voice-1模型的性能如何？

A：MAI-Voice-1是微软发布的语音模型，被称为业界硬件效率最高的语音模型之一。它可以使用单个图形处理单元在不到一秒的时间内生成一分钟的音频，目前在Microsoft Copilot助手中提供服务。

Q3：MAI-1-preview模型采用了什么技术架构？

A：MAI-1-preview采用专家混合架构，与传统神经网络激活所有参数不同，它只激活参数的子集，从而显著减少硬件使用。该模型使用15,000个英伟达H100加速器进行训练，针对效率进行了优化。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

OpenAI与微软发布全新语音生成模型

来源：SiliconANGLE

2025

08/29

08:20

分享

点赞

AI推理能力被高估，阿里发现模型推理测试题目本身就泄题了

专家纵论城市超级智能体：联想“1+N”架构为智慧城市4.0提供破局之道

生成式AI让谷歌和Meta变得更强大更富有

多智能体AI协作：医疗领域的技术突破

CIO为何应关注学术研究以把握技术趋势

亚马逊云科技与Anthropic完成超大规模AI超算集群项目

TikTok将用AI技术自动将长视频转换为短视频

Dell PowerStoreOS 4.2 亮点解析，智能化与安全性全面提升

AI实验室如何通过Mercor获取企业不愿分享的数据

英伟达成为首家市值突破5万亿美元的公司

AWS雷尼尔人工智能超级集群正式上线运行

Fitbit应用迎来史上最大改版：AI健身教练Coach正式亮相

谷歌联合Zed推出智能体客户端协议，挑战VS Code垄断地位

专业网站设计平台Framer获1亿美元融资，估值达20亿美元

英伟达Jetson Thor打造机器人新时代算力引擎

对话多点数智倪艳军：仓储物流先行，全面布局AI零售

2025年美国AI初创企业百万美元融资盘点

Google AI视频编辑器Vids正式向所有用户开放

Google和Grok正逐步追赶ChatGPT竞争地位

英伟达CEO：更先进AI模型将推动芯片与数据中心持续增长

英伟达推出GB10超级芯片 专为本地AI开发设计

Broadcom将私有AI服务集成到VMware云平台

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

阿里要用AI将云计算重做一遍

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

英伟达推出GB10超级芯片专为本地AI开发设计