中国人工智能初创公司MiniMax今日宣布发布M2.1模型,在现实世界复杂任务和智能体能力方面实现显著性能提升,支持更多编程语言和办公场景。
M2.1的核心亮点
M2.1的关键亮点包括在多种编程语言方面的编程技能大幅增强,涵盖Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript和JavaScript等。在美学设计能力以及Web、Android和iOS用户界面开发理解能力方面实现跳跃式提升。
M2.1相较于M2升级了系统性问题解决能力,不仅关注代码执行正确性,还注重遵循包含附加或复杂指导的指令。公司表示,这在真实办公环境中提供了更高的可用性,即使是简单的规则也可能包含复杂的细微差别。
为实现这一目标,公司不仅强调出色的编程能力,还增强了对话和写作技能。该模型在日常对话、技术文档编写以及提供结构化响应方面表现出色。
开源智能体AI编码代理公司Kilo Code Inc.的联合创始人兼首席执行官Scott Breitenother表示:"我们的用户已经开始依赖MiniMax提供前沿级编程辅助,成本仅为同类产品的一小部分。早期测试显示,M2.1在从架构编排到代码审查和部署的各个方面都表现出色。"
性能评估与基准测试
MiniMax M2于今年10月底发布。公司表示,M2.1相比其前身在能力方面表现出显著改进,特别是在多语言场景中。在这方面,它的表现超越了Anthropic公司的Claude Sonnet 4.5,接近Claude Opus 4.5(更大、更复杂的模型)。
作为评估的一部分,MiniMax建立了一个新的基准:VIBE(视觉交互执行基准)。该测试套件涵盖五个核心能力:Web、仿真、Android、iOS和后端开发。与其他基准不同,VIBE采用智能体验证者语言配置。这使其能够评估生成应用程序的交互逻辑和视觉美学。
M2.1在VIBE基准测试中表现出公司所称的"杰出性能",平均得分达到88.6分。它在VIBE-Web和VIBE-Android子集中表现特别出色,分别获得91.5分和89.7分。
公司还针对Anthropic、谷歌、OpenAI和DeepSeek等大厂商,在编程和知识的综合行业基准测试中对新模型进行了测试,包括MMLU-Pro、人类最后考试和Toolathon(针对AI智能体)等。
该模型在智能体工具使用、现实世界知识和复杂问题解决能力方面表现出一致的高性能。在HLE无工具测试中获得22.0分,这是一个具有挑战性的学术基准,包含数千个涵盖不同学科的研究生级别多模态问题。在同样综合的学科知识基准MMLU上,该模型得分88分,与前沿模型相当或紧随其后。
该模型可通过MiniMax的应用程序接口获得,或从HuggingFace下载开放权重版本。目前页面尚未开放。公司的旗舰服务MiniMax Agent基于新的MiniMax-2.1构建。
Q&A
Q1:MiniMax M2.1模型支持哪些编程语言?
A:MiniMax M2.1支持多种主流编程语言,包括Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript和JavaScript等,在这些语言的编程技能方面实现了大幅增强。
Q2:VIBE基准测试是什么?它如何评估模型性能?
A:VIBE是MiniMax建立的视觉交互执行基准,涵盖Web、仿真、Android、iOS和后端开发五个核心能力。它采用智能体验证者语言配置,能够评估生成应用程序的交互逻辑和视觉美学,M2.1在此基准上获得88.6分的平均成绩。
Q3:MiniMax M2.1与其他主流AI模型相比表现如何?
A:在多语言场景中,M2.1超越了Claude Sonnet 4.5,接近Claude Opus 4.5的性能。在MMLU基准测试中获得88分,与Anthropic、谷歌、OpenAI等公司的前沿模型相当或紧随其后。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。