一款全新开源文本转语音模型 Dia 挑战 ElevenLabs、OpenAI 等巨头

Nari Labs 推出了一款名为 Dia 的开源文本转语音模型,拥有 16 亿参数,能从文本中生成自然对话,在语音情感表达上超越市面上大多数商业产品,同时在内容创作和辅助技术等领域展现出广泛应用前景。

一家名为 Nari Labs 的两人初创公司推出了 Dia,这是一款拥有 1.6 亿参数的文本转语音(TTS)模型,旨在直接从文本提示生成自然化对话 —— 其中一位创始人声称,其性能超越了包括 ElevenLabs、Google 热门的 NotebookLM AI 播客生成产品等竞争对手的专有产品。

它甚至可能对 OpenAI 最近推出的 gpt-4o-mini-tts 产生冲击。

“Dia 在与 NotebookLM 播客功能的竞争中不但旗鼓相当,而且在质量上超越了 ElevenLabs Studio 和 Sesame 的开源模型,” Nari 以及 Dia 的联合创始人 Toby Kim 在社交网络 X 上的帖子中如是说道。

在另一篇帖子中,Kim 指出该模型是在“零资金”情况下构建的,并在一个主题帖中补充道: “……我们一开始并非 AI 专家。一切始于我们去年推出的 NotebookLM 播客功能令我们着迷。我们期待更多 —— 有更多对声音的控制,剧本也有更多自由。我们尝试了市面上所有的 TTS API,但没有一款听起来像真实的人类对话。”

Kim 进一步感谢 Google,通过其 Research Cloud,让他和合作者得以使用公司的 Tensor Processing Unit 芯片 (TPU) 来训练 Dia。

现在,Dia 的代码和权重(内部模型连接集)已经在 Hugging Face 以及 Github 上对所有人开放下载与本地部署。个别用户还可以在 Hugging Face Space 上尝试生成语音。

高级控制与更多可定制功能

Dia 支持诸如情感语调、说话人标记及非语言音频提示等细致特征 —— 所有这些均可由纯文本实现。

用户可以利用 [S1] 和 [S2] 等标签标记说话人转换,并添加 (laughs) 、 (coughs) 或 (clears throat) 等提示,使生成的对话在非语言行为上更加丰富。

这些标签能在生成过程中被 Dia 正确解析 —— 根据公司示例页面,其他现有模型对此支持并不稳定。

该模型目前仅支持英语,并且不关联于某个特定说话人的声音,每次生成时的音色均可能不同,除非用户固定生成种子或提供音频提示。通过音频条件约束(或语音克隆),用户可通过上传样本片段来引导语音的语调和音色。

Nari Labs 提供了示例代码以便简化这一流程,并推出了基于 Gradio 的演示,用户无需进行复杂设置即可体验。

与 ElevenLabs 和 Sesame 的对比

Nari 在其 Notion 网站上展示了大量由 Dia 生成的示例音频,并将其与其他领先的语音转文本竞争对手进行了对比,特别是 ElevenLabs Studio 以及 Sesame CSM-1B —— 后者是 Oculus VR 头显联合创始人 Brendan Iribe 推出的一款新文本转语音模型,曾在今年早些时候于 X 平台引起热议。

Nari Labs 通过并排示例展示了 Dia 在多个方面优于竞争对手:

在标准对话场景中,Dia 无论在自然时序还是在非语言表达上都表现更佳。例如,在剧本以 (laughs) 结束时,Dia 能真正理解并生成笑声,而 ElevenLabs 和 Sesame 则只输出诸如 “haha” 之类的文本替代表达。

例如,下面展示的是 Dia 的效果……

……

而下面则是由 ElevenLabs Studio 朗读同一句话时的效果。

在多轮情感丰富的对话中,Dia 展现出更加平滑的过渡和语调变化。一项测试包括一个充满戏剧性、情感激昂的紧急场景,Dia 有效地传递了紧迫感和说话者压力,而竞争模型往往显得表达平淡或节奏丢失。

在处理仅包含非语言内容的剧本时,例如涉及咳嗽、吸鼻子和笑声的幽默对话,Dia 表现尤为出色,而其他模型则往往无法识别这些标签或将其完全忽略。

即使面对如说唱歌词这类节奏复杂的内容,Dia 也能生成流畅、富有表现力且保持一定节奏感的语音;这与 ElevenLabs 和 Sesame 的 1B 模型产生的较为单调或断裂的输出形成了鲜明对比。

利用音频提示,Dia 还能延续或扩展说话人的语音风格,实现新台词的无缝衔接。一则使用对话片段作为种子的示例显示,Dia 能将样本中的语音特征贯穿于后续生成的整个对话中,而这一特性在其他模型中尚未得到稳健支持。

在一组测试中,Nari Labs 指出,Sesame 最佳网站演示很可能采用了内部 8B 版本模型,而非公开的 1B 检查点,导致其广告效果与实际性能之间存在差距。

模型访问与技术参数

开发者可以从 Nari Labs 的 GitHub 仓库以及 Hugging Face 模型页面上获取 Dia。

该模型运行在 PyTorch 2.0+ 和 CUDA 12.6 环境下,大约需要 10GB 的显存。

在企业级 GPU(如 NVIDIA A4000)上推理时,速度约为每秒 40 个 Token。

虽然当前版本仅支持在 GPU 上运行,Nari 计划未来推出 CPU 版本及量化版本,以提升可访问性。

该初创公司同时提供了 Python 库和 CLI 工具,进一步简化了部署过程。

凭借灵活的特性,Dia 在内容创作、辅助技术以及合成语音旁白等多种应用场景中展现出广阔前景。

此外,Nari Labs 正在开发一款面向休闲用户的消费版 Dia,旨在满足希望混剪或分享生成对话的用户。感兴趣的用户可以通过电子邮件注册早期访问候补名单。

完全开源

该模型采用 Apache 2.0 完全开源许可证发布,这意味着它可用于商业用途 —— 这一特性无疑会吸引企业和独立应用开发者。

Nari Labs 明确禁止使用该模型进行冒充个人、传播虚假信息或参与非法活动。团队倡导负责任的试验,并对不道德的部署行为持明确反对态度。

Dia 的开发还得到了 Google TPU Research Cloud、Hugging Face 的 ZeroGPU 拨款计划以及在 SoundStorm、Parakeet 和 Descript Audio Codec 等项目上的既有研究工作的支持。

尽管 Nari Labs 的团队仅由两位工程师(一位全职、一位兼职)组成,他们仍通过 Discord 服务器和 GitHub 积极邀请社区贡献。

凭借对表达质量、可复现性和开放获取的坚定追求,Dia 为生成式语音模型领域增添了一种独特的新声。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

04/24

15:19

分享

点赞

邮件订阅