OpenAI和微软公司今日联合发布了两款专门针对语音生成优化的人工智能模型。
OpenAI的全新算法gpt-realtime被称为其功能最强大的语音模型。该人工智能产生的语音比ChatGPT开发者此前在该领域的产品更加自然。它还能够在句子中途改变语调和语言。
据OpenAI介绍,gpt-realtime特别擅长遵循指令。这使得在应用程序中使用该模型的开发者能够针对特定任务对其进行定制。例如,构建技术支持助手的软件团队可以指示gpt-realtime在某些提示回复中引用知识库文章。
将该模型应用于技术支持场景的开发者还可以访问新的图像上传工具。使用此功能,客户服务聊天机器人可以让用户上传需要故障排除的应用程序截图。OpenAI还预计客户会将此功能用于其他各种任务。
开发者可以通过OpenAI Realtime API访问gpt-realtime。这是一个应用程序编程接口,允许客户与ChatGPT开发者的语音和多模态模型进行交互。作为今日产品更新的一部分,OpenAI将该API正式发布,并增加了多项新功能。
"现在您可以在Realtime API会话中保存和重复使用提示——包括开发者消息、工具、变量以及用户/助手示例消息,"OpenAI研究人员在博客文章中详细说明。
微软在gpt-realtime发布同时详细介绍的语音人工智能模型名为MAI-Voice-1。该模型最初在公司的Microsoft Copilot助手中提供。据该公司介绍,该模型为助手提供功能支持,能够总结天气预报等更新信息,并从文本生成播客。
微软表示MAI-Voice-1是业界硬件效率最高的语音模型之一。它可以使用单个图形处理单元在不到一秒的时间内生成一分钟的音频。微软没有提供额外信息,例如用于测量该模型单芯片性能的GPU型号。
该公司分享了关于MAI-1-preview的更多细节,这是今日发布的第二个新人工智能模型。该公司使用15,000个英伟达公司的H100加速器训练了这个算法。H100是该芯片制造商在2022年推出时的旗舰数据中心显卡。
与微软的新语音模型一样,MAI-1-preview针对效率进行了优化。神经网络在处理提示时通常会激活所有参数或配置设置。MAI-1-preview采用专家混合架构,允许它仅激活参数的子集,从而显著减少硬件使用。
发布时,MAI-1-preview通过API向有限数量的测试人员提供。它将在未来几周内推广到Microsoft Copilot。
该公司暗示计划在未来几个月内推出MAI-1-preview的改进版本。即将推出的模型将使用GB200设备集群进行训练。每个系统结合了72个Blackwell B200芯片(英伟达最新最先进的数据中心GPU)和36个中央处理器。
"我们不仅将在这里追求进一步的进展,而且相信协调一系列专门模型来服务不同的用户意图和使用场景将释放巨大价值,"微软人工智能部门的研究人员在博客文章中写道。
Q&A
Q1:gpt-realtime语音模型有什么特殊功能?
A:gpt-realtime是OpenAI最强大的语音模型,能够产生比以往更自然的语音,还可以在句子中途改变语调和语言。它特别擅长遵循指令,开发者可以针对特定任务进行定制,比如让技术支持助手引用知识库文章。
Q2:MAI-Voice-1模型的性能如何?
A:MAI-Voice-1是微软发布的语音模型,被称为业界硬件效率最高的语音模型之一。它可以使用单个图形处理单元在不到一秒的时间内生成一分钟的音频,目前在Microsoft Copilot助手中提供服务。
Q3:MAI-1-preview模型采用了什么技术架构?
A:MAI-1-preview采用专家混合架构,与传统神经网络激活所有参数不同,它只激活参数的子集,从而显著减少硬件使用。该模型使用15,000个英伟达H100加速器进行训练,针对效率进行了优化。
好文章,需要你的鼓励
谷歌发布新的AI学术搜索工具Scholar Labs,旨在回答详细研究问题。该工具使用AI识别查询中的主要话题和关系,目前仅对部分登录用户开放。与传统学术搜索不同,Scholar Labs不依赖引用次数或期刊影响因子等传统指标来筛选研究质量,而是通过分析文档全文、发表位置、作者信息及引用频次来排序。科学界对这种忽略传统质量评估方式的新方法持谨慎态度,认为研究者仍需保持对文献质量的最终判断权。
Meta公司FAIR实验室与UCLA合作开发了名为HoneyBee的超大规模视觉推理数据集,包含250万训练样本。研究揭示了构建高质量AI视觉推理训练数据的系统方法,发现数据质量比数量更重要,最佳数据源比最差数据源性能提升11.4%。关键创新包括"图片说明书"技术和文字-图片混合训练法,分别提升3.3%和7.5%准确率。HoneyBee训练的AI在多项测试中显著超越同规模模型,同时降低73%推理成本。
Meta发布第三代SAM(分割一切模型)系列AI模型,专注于视觉智能而非语言处理。该模型擅长物体检测,能够精确识别图像和视频中的特定对象。SAM 3在海量图像视频数据集上训练,可通过点击或文本描述准确标识目标物体。Meta将其应用于Instagram编辑工具和Facebook市场功能改进。在野生动物保护方面,SAM 3与保护组织合作分析超万台摄像头捕获的动物视频,成功识别百余种物种,为生态研究提供重要技术支持。
上海AI实验室团队提出ViCO训练策略,让多模态大语言模型能够根据图像语义复杂度智能分配计算资源。通过两阶段训练和视觉路由器,该方法在压缩50%视觉词汇的同时保持99.6%性能,推理速度提升近一倍,为AI效率优化提供了新思路。