MiniMax发布M2.1大语言模型,大幅提升多语言编程能力

中国AI初创公司MiniMax发布M2.1模型,在多种编程语言和办公场景中显著提升了复杂任务处理和智能体能力。该模型在Rust、Java、Golang、C++等多种编程语言方面表现出色,在Web、Android和iOS界面开发的美学设计能力大幅提升。M2.1不仅专注于代码执行正确性,还能遵循复杂指导,在VIBE基准测试中平均得分88.6分。

中国人工智能初创公司MiniMax今日宣布发布M2.1模型,在现实世界复杂任务和智能体能力方面实现显著性能提升,支持更多编程语言和办公场景。

M2.1的核心亮点

M2.1的关键亮点包括在多种编程语言方面的编程技能大幅增强,涵盖Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript和JavaScript等。在美学设计能力以及Web、Android和iOS用户界面开发理解能力方面实现跳跃式提升。

M2.1相较于M2升级了系统性问题解决能力,不仅关注代码执行正确性,还注重遵循包含附加或复杂指导的指令。公司表示,这在真实办公环境中提供了更高的可用性,即使是简单的规则也可能包含复杂的细微差别。

为实现这一目标,公司不仅强调出色的编程能力,还增强了对话和写作技能。该模型在日常对话、技术文档编写以及提供结构化响应方面表现出色。

开源智能体AI编码代理公司Kilo Code Inc.的联合创始人兼首席执行官Scott Breitenother表示:"我们的用户已经开始依赖MiniMax提供前沿级编程辅助,成本仅为同类产品的一小部分。早期测试显示,M2.1在从架构编排到代码审查和部署的各个方面都表现出色。"

性能评估与基准测试

MiniMax M2于今年10月底发布。公司表示,M2.1相比其前身在能力方面表现出显著改进,特别是在多语言场景中。在这方面,它的表现超越了Anthropic公司的Claude Sonnet 4.5,接近Claude Opus 4.5(更大、更复杂的模型)。

作为评估的一部分,MiniMax建立了一个新的基准:VIBE(视觉交互执行基准)。该测试套件涵盖五个核心能力:Web、仿真、Android、iOS和后端开发。与其他基准不同,VIBE采用智能体验证者语言配置。这使其能够评估生成应用程序的交互逻辑和视觉美学。

M2.1在VIBE基准测试中表现出公司所称的"杰出性能",平均得分达到88.6分。它在VIBE-Web和VIBE-Android子集中表现特别出色,分别获得91.5分和89.7分。

公司还针对Anthropic、谷歌、OpenAI和DeepSeek等大厂商,在编程和知识的综合行业基准测试中对新模型进行了测试,包括MMLU-Pro、人类最后考试和Toolathon(针对AI智能体)等。

该模型在智能体工具使用、现实世界知识和复杂问题解决能力方面表现出一致的高性能。在HLE无工具测试中获得22.0分,这是一个具有挑战性的学术基准,包含数千个涵盖不同学科的研究生级别多模态问题。在同样综合的学科知识基准MMLU上,该模型得分88分,与前沿模型相当或紧随其后。

该模型可通过MiniMax的应用程序接口获得,或从HuggingFace下载开放权重版本。目前页面尚未开放。公司的旗舰服务MiniMax Agent基于新的MiniMax-2.1构建。

Q&A

Q1:MiniMax M2.1模型支持哪些编程语言?

A:MiniMax M2.1支持多种主流编程语言,包括Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript和JavaScript等,在这些语言的编程技能方面实现了大幅增强。

Q2:VIBE基准测试是什么?它如何评估模型性能?

A:VIBE是MiniMax建立的视觉交互执行基准,涵盖Web、仿真、Android、iOS和后端开发五个核心能力。它采用智能体验证者语言配置,能够评估生成应用程序的交互逻辑和视觉美学,M2.1在此基准上获得88.6分的平均成绩。

Q3:MiniMax M2.1与其他主流AI模型相比表现如何?

A:在多语言场景中,M2.1超越了Claude Sonnet 4.5,接近Claude Opus 4.5的性能。在MMLU基准测试中获得88分,与Anthropic、谷歌、OpenAI等公司的前沿模型相当或紧随其后。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2025

12/24

16:48

分享

点赞

邮件订阅