小米近日以MIT许可协议开源发布了MiMo-V2.5和MiMo-V2.5-Pro两款模型,为开发者提供了一个构建AI智能体的低成本新选择,支持编程开发、工作流自动化等长周期任务。
两款模型均支持100万Token的上下文窗口。MiMo-V2.5-Pro专为复杂智能体任务和编程场景设计,而MiMo-V2.5则是原生全模态模型,可同时处理文字、图片、视频和音频内容。
此次发布恰逢智能体AI工作负载对企业AI预算造成新压力之际。这类系统在规划、调用工具、编写代码及错误恢复过程中会消耗大量Token,使得成本管理和部署控制变得尤为关键。
采用MIT许可意味着允许商业部署、持续训练和微调,无需额外授权。Kadence International高级副总裁Tulika Sheel表示,MIT许可使该模型颇具吸引力:"企业可以自由修改、部署和商业化该模型,不受任何限制,这在当前AI领域实属罕见。"
小米在官方博客中表示:"在ClawEval测试中,V2.5-Pro以每条轨迹约7万Token的消耗达到64%的Pass^3成绩,相比Claude Opus 4.6、Gemini 3.1 Pro和GPT-5.4在同等能力水平下减少了约40%至60%的Token消耗。"
两款模型均采用稀疏混合专家架构(MoE)以控制算力成本。拥有3100亿参数的MiMo-V2.5每次请求仅激活150亿参数,而拥有1.02万亿参数的Pro版本则激活420亿参数。小米表示,Pro模型的混合注意力设计可在长上下文任务中将KV缓存存储量缩减近7倍。
在长周期任务测试方面,小米列举了多项成果:MiMo-V2.5-Pro在4.3小时内、经672次工具调用完成了一个Rust语言编写的SysY编译器,全部通过233个隐藏测试;此外,该模型还在11.5小时的自主工作中、历经1868次工具调用,生成了一个长达8192行代码的桌面视频编辑器。
MiMo-V2.5能否在智能体编程和自动化领域被企业开发者广泛采用,并与封闭前沿模型形成竞争,将取决于企业对性能、成本和风险的综合评估。
Omdia首席分析师Lian Jye Su表示:"在评估小米MiMo-V2.5及其衍生版本时,企业开发者应着眼于总拥有成本,即Token效率、每次成功任务的成本,以及免除专有模型许可费用所带来的优势。封闭前沿模型在通用任务和极端边缘场景中或许仍有优势,但开源权重模型在高容量智能体任务中表现更为突出。"
Pareekh Consulting首席执行官Pareekh Jain表示,企业不应将MiMo-V2.5视为Claude或GPT的替代品,而应将其定位为高Token消耗工作负载场景下的高性价比智能体模型。
"关键的基准信号不只是准确率,而是每次成功任务所消耗的Token数量,"Jain说,"前沿模型在复杂编程基准测试中往往能取得更高的成功率,但代价是巨大的推理开销。MiMo-V2.5的设计核心是Token效率,即以明显更少的输入和输出Token实现相当的结果。"
Jain认为,这使得MiMo类模型可成为重复性编程、质量保障、系统迁移、文档整理、测试及自动化等工作场景中的"经济型主力",而封闭前沿模型则依然是最复杂任务的质量标杆。
Gartner高级首席分析师Ashish Banerjee认为,MiMo类模型有望从根本上改变长周期智能体的企业AI经济模型。
"当任务规模扩展到数百万Token时,按量计费的专有API就不再像是一种便利,而更像是一种对迭代效率的额外税负,"Banerjee说,"相比之下,MiMo的MIT许可、开放权重、100万Token上下文窗口以及相对低廉的定价,使得私有云或自托管部署具备了战略层面的可行性。"
不过,Banerjee也指出,这并不意味着企业会放弃专有API。
"企业会继续使用专有API来追求前沿精度和低运维消耗,同时将规模化、可重复的智能体工作流转向开源模型——在那些更看重成本可预测性、数据控制权和定制化能力的场景中尤为如此,"Banerjee说,"简言之,长周期、高容量的智能体AI将演变为混合市场,像MiMo这样的开源模型将打破对纯API的依赖。"
Lian Jye Su补充道,来自中国的模型在受监管的西方机构中可能引发合规顾虑,这将对其采用构成一定挑战。
Q&A
Q1:MiMo-V2.5和MiMo-V2.5-Pro有什么区别?
A:MiMo-V2.5是原生全模态模型,支持文本、图片、视频和音频的混合处理;MiMo-V2.5-Pro则专注于复杂智能体和编程任务,拥有1.02万亿参数,每次请求激活420亿参数,并具备混合注意力设计,可将KV缓存存储量缩减近7倍,更适合企业级高难度工作负载。
Q2:MiMo-V2.5的MIT许可对企业意味着什么?
A:MIT许可允许企业自由修改、部署和商业化模型,无需额外授权,也不存在专有模型的许可费用。这使得企业可以在私有云或自托管环境中部署模型,从而更好地控制成本、数据安全和定制化需求,对于高Token消耗的长周期智能体任务尤其具有经济优势。
Q3:MiMo-V2.5的Token效率表现如何?
A:根据小米官方数据,MiMo-V2.5-Pro在ClawEval测试中每条轨迹仅消耗约7万Token,比Claude Opus 4.6、Gemini 3.1 Pro和GPT-5.4少40%至60%。分析师指出,其核心竞争力在于以更少的Token完成同等质量的任务,适合重复性编程、测试、迁移等高容量工作场景。
好文章,需要你的鼓励
今天讲的出海案例是开创电气,一家金华手持式电动工具制造商,在越南基地完成首款产品验收并形成80万台年产能力。
JETSPEC是由UC San Diego等机构联合提出的推测解码框架,通过树形因果掩码让草稿头在一次前向传播中生成分支一致的候选树,在MATH-500上实现最高9.64倍端到端加速。
研究人员意外发现,标准MOSFET晶体管可同时模拟神经元和突触行为,形成"神经突触随机存取存储器"(NSRAM)。该技术仅需一至两个晶体管即可实现传统需数十乃至数百个元件才能完成的神经信号处理,且与现有硅基制造工艺完全兼容,良率达100%。未来有望应用于边缘AI及高能效神经形态芯片,长远或可挑战GPU地位。
本文介绍了中国科学院自动化所的研究,揭示了大型语言模型在多轮工具调用强化学习中崩溃的根本原因,并系统评估了五种监督信号对训练稳定性和泛化能力的影响。