Mistral发布新一代开放权重模型挑战科技巨头

法国AI初创公司Mistral发布Mistral 3系列开放权重模型,包含一个大型前沿模型和九个小型离线模型。该公司试图证明小型模型在企业应用中更具优势,可在单GPU上运行,成本更低且效率更高。Mistral Large 3具备多模态和多语言能力,参数达675亿。Ministral 3小型模型系列提供三种规格,支持视觉处理和大上下文窗口,可部署在边缘设备上。

法国AI初创公司Mistral于周二发布了全新的Mistral 3系列开放权重模型,旨在证明其在公开AI技术和服务企业客户方面能够超越科技巨头竞争对手。

此次发布包含10个模型,其中有一个具备多模态和多语言能力的大型前沿模型,以及九个可离线运行、完全可定制的小型模型。

Mistral开发开放权重语言模型和面向欧洲的AI聊天机器人Le Chat,此前似乎一直在追赶硅谷一些闭源前沿模型的步伐。开放权重模型会公开发布其模型权重,任何人都可以下载和运行。而闭源模型如OpenAI的ChatGPT则保持权重专有,仅通过API或受控接口提供访问。

这家成立两年的初创公司由前DeepMind和Meta研究人员创立,迄今已筹集约27亿美元资金,估值137亿美元。相比之下,竞争对手OpenAI筹集570亿美元、估值5000亿美元,Anthropic筹集450亿美元、估值3500亿美元。

但Mistral试图证明,更大并不总是更好,特别是对于企业用例。

Mistral联合创始人兼首席科学家Guillaume Lample表示:"我们的客户有时乐于从无需微调的大型闭源模型开始,但当他们部署时,会发现成本高昂且速度缓慢。然后他们会找我们微调小型模型来更高效地处理用例。"

"实际上,绝大多数企业用例都可以通过小型模型解决,特别是经过微调后。"Lample继续说道。

Lample表示,将Mistral小型模型与闭源竞争对手进行的初步基准比较可能具有误导性。大型闭源模型可能在开箱即用时表现更好,但真正的收益来自定制化。

"在许多情况下,你实际上可以匹配甚至超越闭源模型的性能。"他说。

Mistral的大型前沿模型名为Mistral Large 3,在重要能力方面追上了OpenAI的GPT-4o和Google的Gemini 2等大型闭源AI模型,同时与多个开放权重竞争对手不相上下。Large 3是首批集多模态和多语言能力于一体的开放前沿模型之一,与Meta的Llama 3和阿里巴巴的Qwen3-Omni处于同一水平。

Large 3还采用"细粒度专家混合"架构,拥有410亿活跃参数和6750亿总参数,能够在256,000上下文窗口内进行高效推理。这种设计兼顾速度和能力,可以处理长篇文档并充当复杂企业任务的智能体助手。

Mistral推出的新小型模型系列名为Ministral 3,公司大胆声称小型模型不仅足够,而且更优秀。

该系列包括九个不同的高性能密集模型,涵盖三种规模(140亿、80亿和30亿参数)和三种变体:Base(预训练基础模型)、Instruct(针对对话和助手式工作流优化的聊天模型)和Reasoning(针对复杂逻辑和分析任务优化)。

Mistral表示,这种范围为开发者和企业提供了灵活性,可以根据确切的性能需求匹配模型。公司声称Ministral 3的得分与其他开放权重领导者相当或更好,同时更高效,在执行同等任务时生成更少的Token。所有变体都支持视觉,处理128,000-256,000上下文窗口,并支持多种语言。

实用性是推广的重要部分。Lample强调Ministral 3可以在单个GPU上运行,使其能够部署在经济实惠的硬件上——从本地服务器到笔记本电脑、机器人和其他可能连接有限的边缘设备。这不仅对保持数据内部的企业很重要,对寻求离线反馈的学生或在偏远环境中操作的机器人团队也很重要。

"确保AI对每个人都可访问是我们使命的一部分,特别是那些没有互联网接入的人。我们不希望AI仅由几个大型实验室控制。"他说。

这种可访问性推动了Mistral日益增长的物理AI关注。今年早些时候,公司开始致力于将其小型模型集成到机器人、无人机和车辆中。Mistral正在与新加坡内政部科技局合作开发机器人、网络安全系统和消防安全的专用模型;与德国国防科技初创公司Helsing合作开发无人机的视觉-语言-行动模型;与汽车制造商Stellantis合作开发车载AI助手。

对Mistral而言,可靠性和独立性与性能同样重要。

"使用竞争对手每两周就会宕机半小时的API——如果你是大公司,无法承受这种情况。"Lample说。

Q&A

Q1:Mistral 3系列模型有什么特点?

A:Mistral 3系列包含10个模型,有一个具备多模态和多语言能力的大型前沿模型Mistral Large 3,以及九个可离线运行、完全可定制的小型模型Ministral 3。这些模型采用开放权重设计,任何人都可以下载和运行。

Q2:为什么Mistral认为小型模型比大型模型更好?

A:Mistral认为大型闭源模型虽然开箱即用效果好,但部署时成本高昂且速度缓慢。而小型模型经过微调后,在许多企业用例中可以匹配甚至超越闭源模型性能,同时更高效、成本更低。

Q3:Ministral 3模型可以在什么设备上运行?

A:Ministral 3可以在单个GPU上运行,能够部署在经济实惠的硬件上,包括本地服务器、笔记本电脑、机器人和其他边缘设备,特别适合连接有限或需要离线运行的环境。

来源:Techcrunch

0赞

好文章,需要你的鼓励

2025

12/03

07:54

分享

点赞

邮件订阅