OpenAI和微软公司今日联合发布了两款专门针对语音生成优化的人工智能模型。
OpenAI的全新算法gpt-realtime被称为其功能最强大的语音模型。该人工智能产生的语音比ChatGPT开发者此前在该领域的产品更加自然。它还能够在句子中途改变语调和语言。
据OpenAI介绍,gpt-realtime特别擅长遵循指令。这使得在应用程序中使用该模型的开发者能够针对特定任务对其进行定制。例如,构建技术支持助手的软件团队可以指示gpt-realtime在某些提示回复中引用知识库文章。
将该模型应用于技术支持场景的开发者还可以访问新的图像上传工具。使用此功能,客户服务聊天机器人可以让用户上传需要故障排除的应用程序截图。OpenAI还预计客户会将此功能用于其他各种任务。
开发者可以通过OpenAI Realtime API访问gpt-realtime。这是一个应用程序编程接口,允许客户与ChatGPT开发者的语音和多模态模型进行交互。作为今日产品更新的一部分,OpenAI将该API正式发布,并增加了多项新功能。
"现在您可以在Realtime API会话中保存和重复使用提示——包括开发者消息、工具、变量以及用户/助手示例消息,"OpenAI研究人员在博客文章中详细说明。
微软在gpt-realtime发布同时详细介绍的语音人工智能模型名为MAI-Voice-1。该模型最初在公司的Microsoft Copilot助手中提供。据该公司介绍,该模型为助手提供功能支持,能够总结天气预报等更新信息,并从文本生成播客。
微软表示MAI-Voice-1是业界硬件效率最高的语音模型之一。它可以使用单个图形处理单元在不到一秒的时间内生成一分钟的音频。微软没有提供额外信息,例如用于测量该模型单芯片性能的GPU型号。
该公司分享了关于MAI-1-preview的更多细节,这是今日发布的第二个新人工智能模型。该公司使用15,000个英伟达公司的H100加速器训练了这个算法。H100是该芯片制造商在2022年推出时的旗舰数据中心显卡。
与微软的新语音模型一样,MAI-1-preview针对效率进行了优化。神经网络在处理提示时通常会激活所有参数或配置设置。MAI-1-preview采用专家混合架构,允许它仅激活参数的子集,从而显著减少硬件使用。
发布时,MAI-1-preview通过API向有限数量的测试人员提供。它将在未来几周内推广到Microsoft Copilot。
该公司暗示计划在未来几个月内推出MAI-1-preview的改进版本。即将推出的模型将使用GB200设备集群进行训练。每个系统结合了72个Blackwell B200芯片(英伟达最新最先进的数据中心GPU)和36个中央处理器。
"我们不仅将在这里追求进一步的进展,而且相信协调一系列专门模型来服务不同的用户意图和使用场景将释放巨大价值,"微软人工智能部门的研究人员在博客文章中写道。
Q&A
Q1:gpt-realtime语音模型有什么特殊功能?
A:gpt-realtime是OpenAI最强大的语音模型,能够产生比以往更自然的语音,还可以在句子中途改变语调和语言。它特别擅长遵循指令,开发者可以针对特定任务进行定制,比如让技术支持助手引用知识库文章。
Q2:MAI-Voice-1模型的性能如何?
A:MAI-Voice-1是微软发布的语音模型,被称为业界硬件效率最高的语音模型之一。它可以使用单个图形处理单元在不到一秒的时间内生成一分钟的音频,目前在Microsoft Copilot助手中提供服务。
Q3:MAI-1-preview模型采用了什么技术架构?
A:MAI-1-preview采用专家混合架构,与传统神经网络激活所有参数不同,它只激活参数的子集,从而显著减少硬件使用。该模型使用15,000个英伟达H100加速器进行训练,针对效率进行了优化。
好文章,需要你的鼓励
伊朗裔英国导演Ash Koosha耗时两个半月,以不足2000美元的成本,借助AI技术完成了一部关于伊朗反政府抗议镇压事件的75分钟剧情片《紫罗兰之梦》。该片即将在纽约翠贝卡电影节首映,成为首部入围顶级电影节的全AI真人故事片。导演认为,AI技术可大幅降低独立电影制作门槛,有望重塑整个影视行业格局。
耶路撒冷希伯来大学研究团队提出PhyGenHOI框架,将人体运动生成与物理仿真结合,让虚拟人物与三维物体之间的接触互动同时满足视觉自然性和物理真实性。
MIT与MIT-IBM计算研究实验室联合开发了专为图表理解设计的数据集ChartNet,包含逾百万张多样化图表及对应代码、文字描述、数值表格和问答对。研究团队利用两步合成数据生成流程,从单张图表出发可扩展出数百种变体。实验表明,基于ChartNet训练的小型开源视觉语言模型在数据提取、图表摘要等任务上显著超越体量更大的商业模型,有望帮助预算有限的中小企业低成本接入AI图表分析能力。
本文介绍了弗莱堡大学等机构提出的3D-SC框架,通过引入三维基础模型的几何先验,无需人工标注即可解决AI图像匹配中的左右混淆和重复部件分不清的问题。