随着AI系统功能日益强大,语音正在快速成为我们与机器沟通的默认方式。法国AI初创公司Mistral凭借其首个开源模型进入音频竞赛,旨在通过开放权重的替代方案挑战封闭企业系统的主导地位。
最近,Mistral宣布发布Voxtral,这是其首个面向企业的音频模型系列。
该公司将Voxtral定位为首个能够在生产环境中部署"真正可用的语音智能"的开源模型。
换句话说,开发者不再需要在便宜但转录效果差且无法真正理解语音内容的开源系统,与功能良好但封闭、成本更高且部署控制力较低的系统之间做出选择。
对于企业而言,这意味着Voxtral提供了一个经济实惠的替代方案,公司声称其成本"不到同类解决方案的一半"。
Mistral表示,Voxtral可以转录长达30分钟的音频。由于其基于大语言模型Mistral Small 3.1的架构,它能够理解长达40分钟的内容,允许用户询问有关音频内容的问题、生成摘要,或将语音命令转化为实时操作,如调用API或运行函数。Voxtral还支持多语言,能够转录和理解英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语。
该公司提供两种"语音理解模型"变体。第一种是Voxtral Small,拥有240亿参数,适用于生产规模部署,可与ElevenLabs Scribe、GPT-4o-mini和Gemini 2.5 Flash竞争。
第二种是Voxtral Mini,拥有30亿参数,适用于本地和边缘部署。还有一个超低成本、精简、快速的API版本,名为Voxtral Mini Transcribe,专为纯转录用例优化,承诺以不到一半的价格超越OpenAI Whisper的性能。
用户可以通过在Hugging Face上下载API或在Mistral的聊天机器人Le Chat中测试模型来免费试用Voxtral。据公司介绍,将API集成到应用程序中的起价为每分钟0.001美元。
此次发布是在Mistral宣布Magistral一个月后进行的,Magistral是其首个推理模型系列,通过逐步解决问题来提高可靠性。
Mistral是欧洲顶级AI公司之一,以倡导开源AI模型而闻名。本月早些时候,TechCrunch报道称,该公司正在与阿布扎比MGX基金等投资者洽谈,计划筹集高达10亿美元的股权融资。
好文章,需要你的鼓励
一加正式推出AI功能Plus Mind和Mind Space,将率先在一加13和13R上线。Plus Mind可保存、建议、存储和搜索屏幕内容,并将信息整理到Mind Space应用中。该功能可通过专用按键或手势激活,能自动创建日历条目并提供AI搜索功能。一加还计划推出三阶段AI战略,包括集成大语言模型和个人助手功能,同时将推出AI语音转录、通话助手和照片优化等工具。
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
预计到2035年,数据中心用电需求将增长一倍以上,达到440TWh,相当于整个加利福尼亚州的用电量。AI工作负载预计将占2030年数据中心需求的50-70%。传统冷却系统电机存在功率浪费问题,通常在30-50%负载下运行时效率急剧下降。采用高效率曲线平坦的适配电机可显著降低冷却系统功耗,某大型数据中心通过优化电机配置减少了近4MW冷却功耗,为13500台AI服务器腾出空间,年增收入900万美元。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。