OpenAI和微软公司今日联合发布了两款专门针对语音生成优化的人工智能模型。
OpenAI的全新算法gpt-realtime被称为其功能最强大的语音模型。该人工智能产生的语音比ChatGPT开发者此前在该领域的产品更加自然。它还能够在句子中途改变语调和语言。
据OpenAI介绍,gpt-realtime特别擅长遵循指令。这使得在应用程序中使用该模型的开发者能够针对特定任务对其进行定制。例如,构建技术支持助手的软件团队可以指示gpt-realtime在某些提示回复中引用知识库文章。
将该模型应用于技术支持场景的开发者还可以访问新的图像上传工具。使用此功能,客户服务聊天机器人可以让用户上传需要故障排除的应用程序截图。OpenAI还预计客户会将此功能用于其他各种任务。
开发者可以通过OpenAI Realtime API访问gpt-realtime。这是一个应用程序编程接口,允许客户与ChatGPT开发者的语音和多模态模型进行交互。作为今日产品更新的一部分,OpenAI将该API正式发布,并增加了多项新功能。
"现在您可以在Realtime API会话中保存和重复使用提示——包括开发者消息、工具、变量以及用户/助手示例消息,"OpenAI研究人员在博客文章中详细说明。
微软在gpt-realtime发布同时详细介绍的语音人工智能模型名为MAI-Voice-1。该模型最初在公司的Microsoft Copilot助手中提供。据该公司介绍,该模型为助手提供功能支持,能够总结天气预报等更新信息,并从文本生成播客。
微软表示MAI-Voice-1是业界硬件效率最高的语音模型之一。它可以使用单个图形处理单元在不到一秒的时间内生成一分钟的音频。微软没有提供额外信息,例如用于测量该模型单芯片性能的GPU型号。
该公司分享了关于MAI-1-preview的更多细节,这是今日发布的第二个新人工智能模型。该公司使用15,000个英伟达公司的H100加速器训练了这个算法。H100是该芯片制造商在2022年推出时的旗舰数据中心显卡。
与微软的新语音模型一样,MAI-1-preview针对效率进行了优化。神经网络在处理提示时通常会激活所有参数或配置设置。MAI-1-preview采用专家混合架构,允许它仅激活参数的子集,从而显著减少硬件使用。
发布时,MAI-1-preview通过API向有限数量的测试人员提供。它将在未来几周内推广到Microsoft Copilot。
该公司暗示计划在未来几个月内推出MAI-1-preview的改进版本。即将推出的模型将使用GB200设备集群进行训练。每个系统结合了72个Blackwell B200芯片(英伟达最新最先进的数据中心GPU)和36个中央处理器。
"我们不仅将在这里追求进一步的进展,而且相信协调一系列专门模型来服务不同的用户意图和使用场景将释放巨大价值,"微软人工智能部门的研究人员在博客文章中写道。
Q&A
Q1:gpt-realtime语音模型有什么特殊功能?
A:gpt-realtime是OpenAI最强大的语音模型,能够产生比以往更自然的语音,还可以在句子中途改变语调和语言。它特别擅长遵循指令,开发者可以针对特定任务进行定制,比如让技术支持助手引用知识库文章。
Q2:MAI-Voice-1模型的性能如何?
A:MAI-Voice-1是微软发布的语音模型,被称为业界硬件效率最高的语音模型之一。它可以使用单个图形处理单元在不到一秒的时间内生成一分钟的音频,目前在Microsoft Copilot助手中提供服务。
Q3:MAI-1-preview模型采用了什么技术架构?
A:MAI-1-preview采用专家混合架构,与传统神经网络激活所有参数不同,它只激活参数的子集,从而显著减少硬件使用。该模型使用15,000个英伟达H100加速器进行训练,针对效率进行了优化。
 0赞
0赞好文章,需要你的鼓励
 推荐文章
                    推荐文章
                  杜克大学研究团队建立了首个专门针对Web智能体攻击检测的综合评估标准WAInjectBench。研究发现,现有攻击手段极其多样化,从图片像素篡改到隐藏弹窗无所不包。虽然检测方法对明显恶意指令有中等效果,但对隐蔽攻击几乎无能为力。研究构建了包含近千个恶意样本的测试数据库,评估了十二种检测方法,揭示了文本和图像检测的互补性。这项研究为Web智能体安全防护指明了方向,提醒我们在享受AI便利时必须保持安全意识。
生成式AI的兴起让谷歌和Meta两大科技巨头受益匪浅。谷歌母公司Alphabet第三季度广告收入同比增长12%达742亿美元,云服务收入增长33%至151.5亿美元,季度总收入首次突破千亿美元大关。Meta第三季度收入512.5亿美元,同比增长26%。两家公司都将大幅增加AI基础设施投资,Meta预计2025年资本支出提升至700亿美元,Alphabet预计达910-930亿美元。
加州大学圣地亚哥分校研究团队系统研究了AI智能体多回合强化学习训练方法,通过环境、策略、奖励三大支柱的协同设计,提出了完整的训练方案。研究在文本游戏、虚拟家庭和软件工程等多个场景验证了方法有效性,发现简单环境训练能迁移到复杂任务,监督学习初始化能显著减少样本需求,密集奖励能改善学习效果。这为训练能处理复杂多步骤任务的AI智能体提供了实用指南。
 
             
                 
                     
                     
                    