这款开源文本转语音模型只需几秒音频就能克隆你的声音

人工智能初创公司Zyphra推出了两款开源文本转语音模型,声称只需5秒样本音频就能克隆声音。测试显示,使用不到30秒的录音即可生成逼真效果。这项技术虽然存在滥用风险,但也有积极应用前景,如帮助失声者重获声音。该模型采用开源许可证发布,为语音合成领域带来新的可能。

位于帕洛阿尔托的 AI 初创公司 Zyphra 本周推出了一对开放的文本转语音(TTS)模型,据称只需五秒钟的样本音频即可克隆你的声音。在我们的测试中,我们用不到半分钟的录音生成了逼真的结果。

这家初创公司由 Danny Martinelli 和 Krithik Puthalath 于 2021 年创立,旨在构建一个名为 MaiaOS 的多模态代理系统。迄今为止,这些努力已经发布了其 Zamba 系列的小型语言模型、如树注意力等优化,以及现在发布的 Zonos TTS 模型。

每个模型的参数规模为 16 亿个,训练数据超过 20 万小时,包括有声书叙述等中性语调的语音和“高度表现力”的语音。根据 Zonos 的发布说明,其大部分数据为英语,但也有“相当数量”的中文、日语、法语、西班牙语和德语。Zyphra 告诉 El Reg,这些数据是从网络上获取的,并非从数据经纪人处获得。

实际上,结果是两个 Zonos 模型:一个完全基于 Transformer 架构,另一个是结合了 Transformer 和 Mamba 状态空间模型(SSM)架构的混合模型。Zyphra 声称后者是第一个使用这种架构的 TTS 模型。虽然基于 Transformer 的模型无疑是当今生成式 AI 中最常用的,但像 Mamba 这样的替代架构也在逐渐流行。

从实用的角度来看,这两个模型的行为与其他文本转语音模型类似。但与 ElevenLabs 和其他公司开发的模型不同,Zyphra 选择在 Hugging Face 上以宽松的 Apache 2.0 许可证发布其模型权重。

进行测试

Zyphra 提供了一个演示环境,你可以在其网站上试用 Zonos 模型,并提供付费的 API 访问和订阅计划。但如果你不愿意将自己的声音上传到一个随机初创公司的服务器上,本地运行模型相对容易。

我们稍后会详细介绍如何设置,但首先,让我们看看它在实际应用中的表现。

为了测试,我们在一张 Nvidia RTX 6000 Ada Generation 显卡上本地启动了 Zyphra 的 Zonos 演示。然后,我们上传了 20 到 30 秒的自己朗读随机文本片段的录音,并将其输入到 Zonos-v0.1 Transformer 和混合模型中,同时输入大约 50 个单词的文本提示,所有超参数保持默认。目标是让训练好的模型根据提供的样本录音和提示预测你的声音,并将其输出为音频文件。

使用 24 秒的样本片段,我们能够实现一个足以欺骗亲友的声音克隆——至少在第一次听时是这样。在揭示该片段是 AI 生成的之后,他们确实指出语速和节奏感觉有些不对,并且他们相信如果是更长的片段,他们会发现音频并不真实。

你可以自己听听,这里有两个片段。第一个样本是一个真实的人类录音,你谦逊的作者正在朗读 H.G. Wells 的《时间机器》,而第二个是 AI 生成的克隆,朗读 Jules Verne 的《海底两万里》。

人类样本:

MP3 音频

使用非混合模型生成的 AI 音频:

MP3 音频

语速和语音都是可以控制的参数,Zonos 支持音频前缀,这允许更动态的范围,如耳语。

在其文档中,Zyphra 声称其混合 Transformer-Mamba 模型的性能比纯 Transformer 模型快约 20%。这种加速在较短的提示中不太明显,但我们可以说两种模型的声音确实有显著差异。

至少在我们听来,混合模型生成的音频略显精致,这反而在某种程度上削弱了克隆声音的真实性。然而,听自己的声音总是有些奇怪的体验,所以我们让你来判断。

使用混合模型生成的 AI 音频:

模型的性能也符合 Zyphra 的说法,即在 RTX 4090 上运行时,每秒运行时间生成约两秒的音频。RTX 6000 Ada 的计算能力与 RTX 4090 相差不大,需要 9 到 10 秒将大约 50 个单词转换为 18 到 20 秒的音频片段。我们注意到,在第一次运行时,我们确实观察到模型加载到 GPU 内存中时有大约一分钟的预热期,因此不会立即开始输出。

自己试试

如果你想使用 Zonos 克隆自己的声音,部署模型相对简单,前提是你有兼容的 GPU 并对 Linux 和容器化有一定了解。

你需要准备:

一台配备至少 8 GB vRAM 的现代 Nvidia 显卡的 Linux 机器。你可能可以在仅有 6 GB 的情况下运行,但效果可能会有所不同。对于操作系统,我们使用的是 Ubuntu 24.04 LTS。

本指南还假定你已安装最新版本的 Docker Engine 和 Nvidia 的容器运行时的最新版本。有关设置的更多信息,请查看我们关于 GPU 加速 Docker 容器的指南

这里

。我们还假定你对 Linux 命令行很熟悉。

要开始,我们将使用 git 拉取 Zonos 仓库:

git clone https://github.com/Zyphra/Zonos.git

从那里,我们将进入文件夹并使用 Docker Compose 启动容器:

cd Zonos docker compose up

注意:根据你的系统,你可能需要使用 sudo 或在某些情况下使用 doas 以提升权限运行此 docker 命令。

几秒钟后,你应该可以访问 http://localhost:7860 访问 Gradio web GUI,或者如果你远程运行此服务,你需要将 localhost 替换为机器的 IP 地址或主机名。我们强烈建议你不要将此特定服务暴露给公共互联网。

Zypher 的 Zonos 演示附带一个易于使用的 Gradio 仪表板 - 点击放大

从那里,你将看到一个 Gradio 仪表板。在这里,你需要选择要使用的 Zonos 模型版本,上传或录制你的样本音频,并输入你想转换的文本。

在此下方,你会找到各种超参数,可以调整生成的各个方面,包括音调和语速。我们不会假装完全理解所有这些参数,但在我们的测试中,我们基本上将这些设置保持为默认值。

一旦你将所有内容调整好,点击生成音频。根据你的硬件和输入文本的长度,这可能需要几秒钟到几分钟。一旦完成,剪辑应该会自动开始播放。

AI 摘要将真实新闻变成无稽之谈,BBC 发现

DeepSeek 还是 DeepFake?我们的作者围绕中国最热门的 AI

AI 代理?是的,让我们自动化所有实际上不需要的事情

心理负担:Scale AI,Outlier 被人类起诉,因为他们被支付以引导 AI 远离我们最黑暗的深渊

更广泛的影响

正如我们之前在图像生成和其他 AI 技术中看到的那样,Zonos 提供的语音克隆能力本质上是有争议的,从训练数据的来源到实际使用方式。

考虑到实现一个可接受的结果所需的样本音频量之少,很容易看出这种技术可能被滥用。像 Audible 这样的公司正在探索文本转语音 AI,以扩大有声书的制作,让叙述者可以创建自己的 AI 生成语音克隆。同时,围绕 AI 语音克隆的法律挑战已经开始影响类似的企业。

我们还可以看到这种技术被用来诈骗毫无戒心的受害者,让他们相信亲人有麻烦,并且他们只需要几百美元的礼品卡就能摆脱困境。或者用它来毁掉某人的职业生涯,比如用他们的声音给他们的老板打一个辱骂电话。或者生成虚假的政治信息,或者……例子不胜枚举。

话虽如此,这些模型也有善意的用途。从可访问性的角度来看,语音克隆和文本转语音可以帮助那些声带受损或有影响语音的疾病的人找回他们的声音。事实上,这是 Apple 在 2023 年底为 iOS 引入语音克隆技术的理由之一。

这种技术已经广泛可用——无论是在 iDevices 上,还是通过付费服务,或作为开源模型——这就是为什么我们甚至愿意展示如何在本地部署和运行 Zonos 的原因。

话虽如此,如果你选择采用 AI 文本转语音功能,我们鼓励你以最尊重和负责任的方式使用它。

来源:The Register

0赞

好文章,需要你的鼓励

2025

02/18

15:40

分享

点赞

邮件订阅