OpenAI与微软发布全新语音生成模型

OpenAI和微软发布了两款新的语音人工智能模型。OpenAI的gpt-realtime被称为其最强语音模型,可生成更自然的语音并能在句中改变语调和语言。微软推出的MAI-Voice-1模型已集成到Copilot助手中,具有高硬件效率,单个GPU即可在一秒内生成一分钟音频。两家公司还发布了MAI-1-preview模型,采用专家混合架构提高效率。

OpenAI和微软公司今日联合发布了两款专门针对语音生成优化的人工智能模型。

OpenAI的全新算法gpt-realtime被称为其功能最强大的语音模型。该人工智能产生的语音比ChatGPT开发者此前在该领域的产品更加自然。它还能够在句子中途改变语调和语言。

据OpenAI介绍,gpt-realtime特别擅长遵循指令。这使得在应用程序中使用该模型的开发者能够针对特定任务对其进行定制。例如,构建技术支持助手的软件团队可以指示gpt-realtime在某些提示回复中引用知识库文章。

将该模型应用于技术支持场景的开发者还可以访问新的图像上传工具。使用此功能,客户服务聊天机器人可以让用户上传需要故障排除的应用程序截图。OpenAI还预计客户会将此功能用于其他各种任务。

开发者可以通过OpenAI Realtime API访问gpt-realtime。这是一个应用程序编程接口,允许客户与ChatGPT开发者的语音和多模态模型进行交互。作为今日产品更新的一部分,OpenAI将该API正式发布,并增加了多项新功能。

"现在您可以在Realtime API会话中保存和重复使用提示——包括开发者消息、工具、变量以及用户/助手示例消息,"OpenAI研究人员在博客文章中详细说明。

微软在gpt-realtime发布同时详细介绍的语音人工智能模型名为MAI-Voice-1。该模型最初在公司的Microsoft Copilot助手中提供。据该公司介绍,该模型为助手提供功能支持,能够总结天气预报等更新信息,并从文本生成播客。

微软表示MAI-Voice-1是业界硬件效率最高的语音模型之一。它可以使用单个图形处理单元在不到一秒的时间内生成一分钟的音频。微软没有提供额外信息,例如用于测量该模型单芯片性能的GPU型号。

该公司分享了关于MAI-1-preview的更多细节,这是今日发布的第二个新人工智能模型。该公司使用15,000个英伟达公司的H100加速器训练了这个算法。H100是该芯片制造商在2022年推出时的旗舰数据中心显卡。

与微软的新语音模型一样,MAI-1-preview针对效率进行了优化。神经网络在处理提示时通常会激活所有参数或配置设置。MAI-1-preview采用专家混合架构,允许它仅激活参数的子集,从而显著减少硬件使用。

发布时,MAI-1-preview通过API向有限数量的测试人员提供。它将在未来几周内推广到Microsoft Copilot。

该公司暗示计划在未来几个月内推出MAI-1-preview的改进版本。即将推出的模型将使用GB200设备集群进行训练。每个系统结合了72个Blackwell B200芯片(英伟达最新最先进的数据中心GPU)和36个中央处理器。

"我们不仅将在这里追求进一步的进展,而且相信协调一系列专门模型来服务不同的用户意图和使用场景将释放巨大价值,"微软人工智能部门的研究人员在博客文章中写道。

Q&A

Q1:gpt-realtime语音模型有什么特殊功能?

A:gpt-realtime是OpenAI最强大的语音模型,能够产生比以往更自然的语音,还可以在句子中途改变语调和语言。它特别擅长遵循指令,开发者可以针对特定任务进行定制,比如让技术支持助手引用知识库文章。

Q2:MAI-Voice-1模型的性能如何?

A:MAI-Voice-1是微软发布的语音模型,被称为业界硬件效率最高的语音模型之一。它可以使用单个图形处理单元在不到一秒的时间内生成一分钟的音频,目前在Microsoft Copilot助手中提供服务。

Q3:MAI-1-preview模型采用了什么技术架构?

A:MAI-1-preview采用专家混合架构,与传统神经网络激活所有参数不同,它只激活参数的子集,从而显著减少硬件使用。该模型使用15,000个英伟达H100加速器进行训练,针对效率进行了优化。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2025

08/29

08:20

分享

点赞

邮件订阅