OpenAI和微软公司今日联合发布了两款专门针对语音生成优化的人工智能模型。
OpenAI的全新算法gpt-realtime被称为其功能最强大的语音模型。该人工智能产生的语音比ChatGPT开发者此前在该领域的产品更加自然。它还能够在句子中途改变语调和语言。
据OpenAI介绍,gpt-realtime特别擅长遵循指令。这使得在应用程序中使用该模型的开发者能够针对特定任务对其进行定制。例如,构建技术支持助手的软件团队可以指示gpt-realtime在某些提示回复中引用知识库文章。
将该模型应用于技术支持场景的开发者还可以访问新的图像上传工具。使用此功能,客户服务聊天机器人可以让用户上传需要故障排除的应用程序截图。OpenAI还预计客户会将此功能用于其他各种任务。
开发者可以通过OpenAI Realtime API访问gpt-realtime。这是一个应用程序编程接口,允许客户与ChatGPT开发者的语音和多模态模型进行交互。作为今日产品更新的一部分,OpenAI将该API正式发布,并增加了多项新功能。
"现在您可以在Realtime API会话中保存和重复使用提示——包括开发者消息、工具、变量以及用户/助手示例消息,"OpenAI研究人员在博客文章中详细说明。
微软在gpt-realtime发布同时详细介绍的语音人工智能模型名为MAI-Voice-1。该模型最初在公司的Microsoft Copilot助手中提供。据该公司介绍,该模型为助手提供功能支持,能够总结天气预报等更新信息,并从文本生成播客。
微软表示MAI-Voice-1是业界硬件效率最高的语音模型之一。它可以使用单个图形处理单元在不到一秒的时间内生成一分钟的音频。微软没有提供额外信息,例如用于测量该模型单芯片性能的GPU型号。
该公司分享了关于MAI-1-preview的更多细节,这是今日发布的第二个新人工智能模型。该公司使用15,000个英伟达公司的H100加速器训练了这个算法。H100是该芯片制造商在2022年推出时的旗舰数据中心显卡。
与微软的新语音模型一样,MAI-1-preview针对效率进行了优化。神经网络在处理提示时通常会激活所有参数或配置设置。MAI-1-preview采用专家混合架构,允许它仅激活参数的子集,从而显著减少硬件使用。
发布时,MAI-1-preview通过API向有限数量的测试人员提供。它将在未来几周内推广到Microsoft Copilot。
该公司暗示计划在未来几个月内推出MAI-1-preview的改进版本。即将推出的模型将使用GB200设备集群进行训练。每个系统结合了72个Blackwell B200芯片(英伟达最新最先进的数据中心GPU)和36个中央处理器。
"我们不仅将在这里追求进一步的进展,而且相信协调一系列专门模型来服务不同的用户意图和使用场景将释放巨大价值,"微软人工智能部门的研究人员在博客文章中写道。
Q&A
Q1:gpt-realtime语音模型有什么特殊功能?
A:gpt-realtime是OpenAI最强大的语音模型,能够产生比以往更自然的语音,还可以在句子中途改变语调和语言。它特别擅长遵循指令,开发者可以针对特定任务进行定制,比如让技术支持助手引用知识库文章。
Q2:MAI-Voice-1模型的性能如何?
A:MAI-Voice-1是微软发布的语音模型,被称为业界硬件效率最高的语音模型之一。它可以使用单个图形处理单元在不到一秒的时间内生成一分钟的音频,目前在Microsoft Copilot助手中提供服务。
Q3:MAI-1-preview模型采用了什么技术架构?
A:MAI-1-preview采用专家混合架构,与传统神经网络激活所有参数不同,它只激活参数的子集,从而显著减少硬件使用。该模型使用15,000个英伟达H100加速器进行训练,针对效率进行了优化。
好文章,需要你的鼓励
Anthropic对用户数据处理政策进行重大调整,要求所有Claude用户在9月28日前决定是否允许其对话数据用于AI模型训练。此前该公司不使用消费者聊天数据进行模型训练,现在希望利用用户对话和编程会话来训练AI系统,未选择退出的用户数据保留期将延长至五年。新政策适用于Claude免费版、专业版和最高版用户,但不影响企业客户。
谷歌DeepMind团队开发了过程监督强化学习技术,让AI学会像人类一样进行复杂推理。该方法不仅关注最终答案,更重视推理过程中每一步的合理性。在数学推理测试中,AI准确率从41%提升至73%。这项技术为AI在教育、科研、医疗等领域的应用开辟了新可能,让AI决策过程更加透明可信。
OpenAI和微软发布了两款新的语音人工智能模型。OpenAI的gpt-realtime被称为其最强语音模型,可生成更自然的语音并能在句中改变语调和语言。微软推出的MAI-Voice-1模型已集成到Copilot助手中,具有高硬件效率,单个GPU即可在一秒内生成一分钟音频。两家公司还发布了MAI-1-preview模型,采用专家混合架构提高效率。
上海AI实验室等机构联合研究开发的InMind框架,通过阿瓦隆社交推理游戏测试AI是否能理解和模仿人类个性化推理风格。研究发现,尽管GPT-4o等先进模型在基础任务表现良好,但在理解个性化推理方面仍有明显不足,大多依赖词汇相似性而非深层推理模式。DeepSeek-R1等推理优化模型展现出更好潜力,为开发更懂人心的AI系统指明了方向。