总部位于巴黎的Mistral AI公司今日宣布发布其首款文本转语音人工智能模型Voxtral TTS,旨在挑战市场上最知名和最强大的语音模型。
这款新模型非常轻量化,仅有40亿参数,可以在大多数消费级硬件上运行,包括现代笔记本电脑、中端台式机图形处理器,甚至一些高端移动设备在高压缩状态下也能使用。该公司以开放权重的形式发布这款模型,这意味着它是一个开源模型。
Mistral表示,该模型的亮点是对新声音具有很强的适应性,并且新音频的延迟时间极低,能够快速响应。
尽管模型规模较小,但仍能创造出强大的语音效果。该公司表示,它不仅能朗读文本,还能准确解释文本内容,这是任何文本转语音生成的必备条件。它能够产生适合演讲的情感和语调,例如中性、快乐、讽刺等。目标是捕捉人们自然说话的方式。
即使在英语方面,语音功能也包括美式、英式和法式口音。
在与专有大语言模型语音模型的激烈竞争中,Mistral将其与市场领导者ElevenLabs公司进行了比较。对于语音智能体,该公司表示人工评估显示,Voxtral TTS在自然度方面可与ElevenLabs Flash v2.5相比较,并且在更加逼真的交互中与更大的v3模型表现相当。
虽然英语市场相当庞大,但Mistral是一家法国公司,因此Voxtral TTS是一个多语言模型。该公司表示,它在大型语音数据集上进行训练,专为全球应用而构建。它在九种语言中支持最先进的性能:英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。
该模型可以通过仅仅三秒钟的参考音频进行训练,以适应和克隆语音。它不仅能捕捉声音,还能捕捉细微差别,如微妙的口音、语调变化、音调起伏,甚至是说话者节奏和韵律中自然的口语填充词,如"嗯"、"啊"以及其他中断、停顿和重复。
这种高保真度,加上小巧的体积和开放权重,意味着Mistral认为企业公司希望拥有自己的语音模型并在本地系统上运行。它还为未来更强大的文本转语音AI模型奠定了基础,这些模型将提供更多的质感、定制化和功能,Mistral可以为企业环境提供支持。
用户今天就可以在Mistral Studio或Le Chat中开始使用该模型。开放模型可供开发者使用,提供多个参考语音,可以在Creative Commons许可下从Hugging Face下载。
Q&A
Q1:Voxtral TTS有什么特别之处?
A:Voxtral TTS是Mistral公司首款文本转语音AI模型,仅有40亿参数却能产生高质量语音。它支持9种语言,能够准确解释文本并产生适合的情感语调,仅需3秒参考音频就能进行语音克隆,还能捕捉口音、语调和自然的口语习惯。
Q2:这个模型能在什么设备上运行?
A:由于Voxtral TTS只有40亿参数,非常轻量化,可以在大多数消费级硬件上运行,包括现代笔记本电脑、中端台式机显卡,甚至一些高端移动设备在高压缩状态下也能使用。
Q3:Voxtral TTS支持哪些语言?
A:Voxtral TTS支持9种语言的最先进性能,包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语。在英语方面还包括美式、英式和法式口音。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。