尽管 OpenAI 的语音 AI 模型此前曾因演员 Scarlett Johansson 的事件而陷入困境,但这并未阻止该公司在这一领域继续推进技术创新。
今天,这家 ChatGPT 的开发商发布了三个全新的专有语音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。这些模型最初通过应用程序接口 (API) 向第三方软件开发者提供,供他们构建自己的应用程序。同时,OpenAI 还推出了一个名为 OpenAI.fm 的演示网站,供个人用户进行有限的测试和体验。
此外,gpt-4o-mini-tts 模型的语音可以通过文本提示从多个预设中进行定制,以改变其口音、音调、语气和其他声音特质——包括表达用户要求的任何情绪。这应该能很好地解决人们担心 OpenAI 刻意模仿特定用户声音的问题(该公司此前否认在 Johansson 事件中存在模仿行为,但还是撤下了那个可能涉及模仿的语音选项)。现在用户可以自行决定他们想要 AI 语音如何发声。
在与 VentureBeat 进行的视频通话演示中,OpenAI 技术人员 Jeff Harris 展示了用户如何仅通过演示网站上的文本,就能让同一个语音听起来像一个狂笑的疯狂科学家或一个禅意十足、平静的瑜伽老师。
发掘和完善 GPT-4o 基础模型的新功能
这些模型是 OpenAI 在 2024 年 5 月推出的 GPT-4o 模型的变体,目前为许多用户提供 ChatGPT 的文本和语音体验。公司通过额外的数据对基础模型进行后期训练,使其在转录和语音方面表现出色。公司没有具体说明这些模型何时会应用到 ChatGPT 中。
Harris 表示:"ChatGPT 在成本和性能权衡方面有着略微不同的要求,所以虽然我预计它们最终会采用这些模型,但目前这次发布主要针对 API 用户。"
这些新模型旨在取代 OpenAI 两年前推出的开源文本转语音模型 Whisper。在行业基准测试中,新模型展现出更低的词错误率,并在嘈杂环境中、不同口音和各种语速下都有更好的表现——支持超过 100 种语言。
公司在其网站上发布了一张图表,显示 gpt-4o-transcribe 模型在 33 种语言中的词识别错误率明显低于 Whisper——英语的错误率仅为 2.46%。
Harris 说:"这些模型包含噪声消除和语义语音活动检测器,有助于确定说话者何时完成了一个想法,从而提高转录准确性。"
Harris 告诉 VentureBeat,新的 gpt-4o-transcribe 模型系列并非设计用于"说话人分离",即标记和区分不同说话者的功能。相反,它主要设计用于接收单个(或可能多个)声音作为单一输入通道,并在该交互中用单一输出声音响应所有输入。
公司还举办了一个面向公众的比赛,寻找使用其演示语音网站 OpenAI.fm 的最具创意的例子,参与者需要在 X 平台上标记 @openAI 账号分享。获胜者将获得一台带有 OpenAI 标志的定制版 Teenage Engineering 收音机,OpenAI 平台产品负责人 Olivier Godement 表示这是全球仅有的三台之一。
音频应用的金矿
这些增强功能使其特别适合客户呼叫中心、会议记录转录和 AI 驱动的助手等应用场景。
令人印象深刻的是,根据上周 OpenAI YouTube 直播发布新模型时的演示者介绍,通过公司新推出的 Agents SDK,那些已经在常规 GPT-4o 等文本大语言模型基础上构建应用的开发者,只需"约 9 行代码"就能添加流畅的语音交互功能。
例如,基于 GPT-4o 构建的电商应用现在只需几秒钟的代码调整,就能通过添加这些新模型来用语音回应用户的轮次性问题,比如"告诉我我最近的订单"。
Harris 说:"我们首次引入了流式语音转文本功能,允许开发者持续输入音频并接收实时文本流,使对话感觉更自然。"
不过,对于那些寻求低延迟、实时 AI 语音体验的开发者,OpenAI 建议使用其 Realtime API 中的语音到语音模型。
定价和可用性
新模型即刻通过 OpenAI 的 API 提供,定价如下:
o gpt-4o-transcribe:每 100 万音频输入 token 6.00 美元(约每分钟 0.006 美元)
o gpt-4o-mini-transcribe:每 100 万音频输入 token 3.00 美元(约每分钟 0.003 美元)
o gpt-4o-mini-tts:每 100 万文本输入 token 0.60 美元,每 100 万音频输出 token 12.00 美元(约每分钟 0.015 美元)
然而,它们进入市场时面临着前所未有的激烈竞争。专注于语音 AI 的公司如 ElevenLabs 推出了支持说话人分离的新型 Scribe 模型,英语错误率也较低(但不及 OpenAI),为 3.3%,定价为每小时输入音频 0.40 美元(约每分钟 0.006 美元,与 OpenAI 相当)。
另一家初创公司 Hume AI 提供新模型 Octave TTS,支持句子级甚至词级的发音和情感语调定制——完全基于用户指令,而不是预设声音。Octave TTS 的定价不能直接比较,但有提供 10 分钟免费音频的免费层级。
同时,更高级的音频和语音模型也正在进入开源社区,包括一个名为 Orpheus 3B 的模型,它采用宽松的 Apache 2.0 许可证,这意味着只要开发者拥有合适的硬件或云服务器,就无需支付任何使用成本。
行业采用和早期成果
根据 OpenAI 与 VentureBeat 分享的用户反馈,已有多家公司将 OpenAI 的新音频模型整合到其平台中,并报告了语音 AI 性能的显著提升。
专注于物业管理自动化的 EliseAI 发现,OpenAI 的文本转语音模型实现了与租户更自然、情感更丰富的互动。增强的语音使 AI 驱动的租赁、维护和预约参观更具吸引力,提高了租户满意度和通话解决率。
构建 AI 语音体验的 Decagon 使用 OpenAI 的语音识别模型后,转录准确率提高了 30%。这种准确率的提升使 Decagon 的 AI 代理能够在现实场景中更可靠地运行,即使在嘈杂环境中也是如此。集成过程很快,Decagon 在一天内就完成了新模型的系统整合。
并非所有对 OpenAI 最新发布的反应都是积极的。Dawn AI 应用分析软件联合创始人、前苹果人机界面设计师 Ben Hylak (@benhylak) 在 X 平台上发表评论说,虽然这些模型看起来很有前景,但这次发布"感觉像是对实时语音的退却",暗示 OpenAI 正在偏离其此前通过 ChatGPT 专注于低延迟对话式 AI 的方向。
此外,在正式发布前,这些信息在 X 平台(原 Twitter)上被提前泄露。TestingCatalog News (@testingcatalog) 在官方宣布前几分钟就发布了新模型的详细信息,列出了 gpt-4o-mini-tts、gpt-4o-transcribe 和 gpt-4o-mini-transcribe 的名称。这个泄露信息归功于 @StivenTheDev,该帖子迅速获得关注。
展望未来,OpenAI 计划继续完善其音频模型,并在确保安全和负责任的 AI 使用的前提下探索自定义语音功能。除了音频之外,OpenAI 还在投资多模态 AI,包括视频,以实现更动态和交互式的基于代理的体验。
好文章,需要你的鼓励
OpenAI 发布三款全新专有语音模型,包括 gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts。这些模型基于 GPT-4o 开发,提供更准确的转录和语音合成能力,支持 100 多种语言,可通过 API 集成到第三方应用中。新模型在英语转录准确率方面表现出色,错误率仅为 2.46%,并支持语音定制和情感表达。
Nvidia 推出 DGX Cloud 基准测试工具包,帮助企业和开发者评估其基础设施运行先进 AI 模型的能力。该工具包提供性能测试容器和脚本,可在不同配置下测试 AI 模型性能,支持企业在大规模部署 AI 工作负载前做出明智决策,优化基础设施效能。
Nvidia 宣布与电力行业研发机构 EPRI 合作,利用 AI 技术解决电网面临的挑战。讽刺的是,这些问题主要源于 AI 本身带来的用电需求激增。Open Power AI 联盟将开源特定领域的 AI 模型,以应对电力行业未来的挑战,包括数据中心用电激增、可再生能源整合等问题。
NVIDIA 正全力打造从硬件到软件再到开发者工具的全栈式 AI 解决方案。在 2025 年 GPU 技术大会上,CEO 黄仁勋详细介绍了新一代 Blackwell B300 GPU、企业级 AI 超级计算机以及 AI 推理模型等创新产品,展现了 NVIDIA 在云计算、企业 IT、制造业和机器人等领域的全方位布局,致力于将 AI 技术推广到更广泛的应用场景。