Mistral发布首个开源AI音频模型Voxtral

法国AI初创公司Mistral发布首个音频模型家族Voxtral,旨在为企业提供真正可用的语音智能解决方案。该模型可转录30分钟音频,理解40分钟内容,支持问答、摘要生成和语音命令执行。Voxtral支持英语、西班牙语、法语等8种语言,提供24B参数的Small版本和3B参数的Mini版本。定价从每分钟0.001美元起,声称成本不到同类方案的一半。

随着AI系统功能日益强大,语音正在快速成为我们与机器沟通的默认方式。法国AI初创公司Mistral凭借其首个开源模型进入音频竞赛,旨在通过开放权重的替代方案挑战封闭企业系统的主导地位。

最近,Mistral宣布发布Voxtral,这是其首个面向企业的音频模型系列。

该公司将Voxtral定位为首个能够在生产环境中部署"真正可用的语音智能"的开源模型。

换句话说,开发者不再需要在便宜但转录效果差且无法真正理解语音内容的开源系统,与功能良好但封闭、成本更高且部署控制力较低的系统之间做出选择。

对于企业而言,这意味着Voxtral提供了一个经济实惠的替代方案,公司声称其成本"不到同类解决方案的一半"。

Mistral表示,Voxtral可以转录长达30分钟的音频。由于其基于大语言模型Mistral Small 3.1的架构,它能够理解长达40分钟的内容,允许用户询问有关音频内容的问题、生成摘要,或将语音命令转化为实时操作,如调用API或运行函数。Voxtral还支持多语言,能够转录和理解英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语。

该公司提供两种"语音理解模型"变体。第一种是Voxtral Small,拥有240亿参数,适用于生产规模部署,可与ElevenLabs Scribe、GPT-4o-mini和Gemini 2.5 Flash竞争。

第二种是Voxtral Mini,拥有30亿参数,适用于本地和边缘部署。还有一个超低成本、精简、快速的API版本,名为Voxtral Mini Transcribe,专为纯转录用例优化,承诺以不到一半的价格超越OpenAI Whisper的性能。

用户可以通过在Hugging Face上下载API或在Mistral的聊天机器人Le Chat中测试模型来免费试用Voxtral。据公司介绍,将API集成到应用程序中的起价为每分钟0.001美元。

此次发布是在Mistral宣布Magistral一个月后进行的,Magistral是其首个推理模型系列,通过逐步解决问题来提高可靠性。

Mistral是欧洲顶级AI公司之一,以倡导开源AI模型而闻名。本月早些时候,TechCrunch报道称,该公司正在与阿布扎比MGX基金等投资者洽谈,计划筹集高达10亿美元的股权融资。

来源:Techcrunch

0赞

好文章,需要你的鼓励

2025

07/16

10:13

分享

点赞

邮件订阅