Mistral开源Small模型从3.1升级到3.2版本的原因解析

法国AI公司Mistral发布开源模型Mistral Small 3.2-24B，在3.1版本基础上改进指令遵循、输出稳定性和函数调用可靠性。新版本可在单个A100/H100 80GB GPU上运行，降低了企业部署门槛。虽然整体架构未变，但在指令准确性和减少重复输出方面有显著提升，同时保持Apache 2.0开源许可。

法国AI明星公司Mistral在这个夏天持续推出新版本。

在宣布推出专门的国内AI优化云服务Mistral Compute几天后，这家资金充足的公司发布了其240亿参数开源模型Mistral Small的更新版本，从3.1版本跃升至3.2-24B Instruct-2506。

新版本直接基于Mistral Small 3.1构建，旨在改善特定行为，如指令遵循、输出稳定性和函数调用稳健性。虽然整体架构细节保持不变，但此次更新引入了有针对性的改进，影响了内部评估和公共基准测试。

据Mistral AI表示，Small 3.2在遵循精确指令方面表现更好，减少了无限或重复生成的可能性——这是以前版本在处理长或模糊提示时偶尔出现的问题。

同样，函数调用模板已升级，支持更可靠的工具使用场景，特别是在vLLM等框架中。

同时，它可以在配备单个Nvidia A100/H100 80GB GPU的设置上运行，大幅扩展了计算资源和/或预算紧张的企业的选择。

仅3个月后的模型更新

Mistral Small 3.1于2025年3月发布，作为240亿参数范围内的旗舰开源版本。它提供了完整的多模态功能、多语言理解和长达128K令牌的长上下文处理能力。

该模型明确定位为对抗GPT-4o Mini、Claude 3.5 Haiku和Gemma 3-it等专有竞品——据Mistral称，在许多任务上都优于这些模型。

Small 3.1还强调高效部署，声称推理速度达每秒150个令牌，支持32GB RAM的设备端使用。

该版本同时提供基础版和指令版检查点，为法律、医疗和技术等领域的微调提供了灵活性。

相比之下，Small 3.2专注于行为和可靠性的精准改进。它不旨在引入新功能或架构变更，而是作为维护版本：清理输出生成中的边缘情况，加强指令合规性，并改进系统提示交互。

Small 3.2与Small 3.1的变化对比

指令遵循基准测试显示出小幅但可测量的改进。Mistral的内部准确率从Small 3.1的82.75%提升至Small 3.2的84.78%。

同样，在Wildbench v2和Arena Hard v2等外部数据集上的性能显著改善——Wildbench提升了近10个百分点，而Arena Hard更是翻了一番多，从19.56%跃升至43.10%。

内部指标还表明输出重复减少。无限生成率从Small 3.1的2.11%下降至Small 3.2的1.29%——几乎减少了2倍。这使模型对于构建需要一致、有界响应的应用程序的开发者更加可靠。

文本和编码基准测试的性能呈现更为细致的图景。Small 3.2在HumanEval Plus（从88.99%提升至92.90%）、MBPP Pass@5（从74.63%提升至78.33%）和SimpleQA上显示出进步。它在MMLU Pro和MATH结果上也有适度改善。

视觉基准测试基本保持一致，略有波动。ChartQA和DocVQA有边际收益，而AI2D和Mathvista下降不到两个百分点。平均视觉性能从Small 3.1的81.39%略微下降至Small 3.2的81.00%。

这与Mistral的既定意图一致：Small 3.2不是模型大修，而是精细化。因此，大多数基准测试都在预期方差范围内，一些回归似乎是为了在其他地方实现有针对性改进的权衡。

然而，正如AI资深用户和影响者@chatgpt21在X上发布的："它在MMLU上表现更差"，MMLU是大规模多任务语言理解基准，这是一个包含57个问题的多学科测试，旨在评估大语言模型跨领域的广泛性能。确实，Small 3.2得分80.50%，略低于Small 3.1的80.62%。

开源许可将使其对成本敏感和定制化导向的用户更具吸引力

Small 3.1和3.2都在Apache 2.0许可下可用，可通过流行的AI代码共享库Hugging Face（这家初创公司总部位于法国和纽约）访问。

Small 3.2受到vLLM和Transformers等框架支持，需要大约55GB的GPU RAM以bf16或fp16精度运行。

对于寻求构建或服务应用程序的开发者，模型存储库中提供了系统提示和推理示例。

虽然Mistral Small 3.1已集成到Google Cloud Vertex AI等平台，并计划在NVIDIA NIM和Microsoft Azure上部署，但Small 3.2目前似乎仅限于通过Hugging Face自助访问和直接部署。

企业在考虑将Mistral Small 3.2用于其用例时应了解的要点

Mistral Small 3.2可能不会改变开放权重模型领域的竞争格局，但它代表了Mistral AI对迭代模型改进的承诺。

在可靠性和任务处理方面有显著改进——特别是在指令精度和工具使用方面——Small 3.2为在Mistral生态系统上构建的开发者和企业提供了更清晰的用户体验。

它由法国初创公司制造并符合GDPR和EU AI Act等欧盟规则法规的事实，也使其对在该地区工作的企业具有吸引力。

不过，对于那些寻求基准性能最大跃升的人来说，Small 3.1仍然是一个参考点——特别是考虑到在某些情况下，如MMLU，Small 3.2并未超越其前身。这使得此次更新更像是一个专注于稳定性的选择，而非纯粹的升级，具体取决于使用场景。

来源：VentureBeat

0赞

好文章，需要你的鼓励

Mistral开源Small模型从3.1升级到3.2版本的原因解析

来源：VentureBeat

2025

06/23

09:34

分享

点赞

AWS强化基础设施战略，全面升级SageMaker应对AI竞争

BigQuery如何融合数据与AI实现业务转型

智能时代，同球共济！2025世界人工智能大会将于7月26日启幕

AI催生下的价值迁徙，神州数码与阿里云合作的“生态位”再定义

铠侠UFS 4.1闪存承诺提升AI应用性能表现

Google Firebase Studio推出智能体模式实现自动化编程

谷歌为Veo 3增加图像转视频生成功能

英伟达计划推出专为中国市场设计的AI芯片

YouTube新政策旨在减少AI生成的低质量视频内容

Citrix重返主流虚拟化市场，但承认产品尚未就绪

Docker推出新功能支持AI智能体开发

欧盟AI新规让科技巨头深恶痛绝的条款

欧洲微出行初创企业新趋势分析

AI如何重振电商客户信任度

氛围编程诞生四个月后：软件开发正在发生根本性变革

拉美数据中心淘金热背后的重大风险

诺基亚发布自主网络架构平台

研究显示LLM转化率高9倍，答案引擎优化时代来临

智能体AI在企业中的9个有前景的应用场景

研究发现使用大语言模型可能导致学习能力下降

美国程序员最爱使用AI编程助手

Midjourney推出AI视频生成功能

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: