中国AI初创公司MiniMax,因其热门的逼真AI视频模型海螺而在西方闻名,现已发布其最新大语言模型MiniMax-M1。对企业和开发者而言,这一完全开源的模型采用Apache 2.0许可证,企业可无限制地将其用于商业应用并根据需要进行修改,无需付费。
M1是一个开放权重模型,在长上下文推理、智能工具使用和高效计算性能方面树立了新标准。该模型现已在AI代码共享社区Hugging Face和微软的竞争对手GitHub上发布,这是公司在X社交账户上宣布的"MiniMax周"的首个发布产品,预计还将有更多产品公告。
MiniMax-M1的上下文窗口达到100万输入token,输出可达8万token,使其成为长上下文推理任务中最具扩展性的模型之一。
大语言模型中的"上下文窗口"指模型一次可处理的最大token数量,包括输入和输出。Token是文本的基本单位,可能包括完整单词、单词片段、标点符号或代码符号。这些token被转换为数值向量,模型通过其参数来表示和操作含义,本质上是LLM的原生语言。
相比之下,OpenAI的GPT-4o上下文窗口仅为12.8万token,足以在单次交互中与用户交换约一本小说的信息量。而拥有100万token的MiniMax-M1可以交换一个小型文集或丛书系列的信息量。谷歌Gemini 2.5 Pro同样提供100万token的上下文上限,据报道正在开发200万token窗口。
但M1还有另一个优势:它采用创新、高效的强化学习技术进行训练。该模型使用混合专家架构(MoE)和闪电注意力机制进行训练,旨在降低推理成本。
根据技术报告,在生成10万token长度时,MiniMax-M1仅消耗DeepSeek R1所需浮点运算(FLOPs)的25%。
架构和变体
该模型提供两个变体——MiniMax-M1-40k和MiniMax-M1-80k,分别对应其"思考预算"或输出长度。
该架构基于公司早期的MiniMax-Text-01基础构建,包含4560亿参数,每个token激活459亿参数。
此次发布的突出特点是模型的训练成本。MiniMax报告称,M1模型使用大规模强化学习训练,总成本为53.47万美元,在该领域展现了罕见的效率。
这一效率归功于名为CISPO的定制RL算法,该算法剪切重要性采样权重而非token更新,以及有助于简化扩展的混合注意力设计。
对于前沿LLM而言,这是一个惊人的"低成本",因为DeepSeek训练其热门R1推理模型的成本据报告为500-600万美元,而OpenAI GPT-4这一已有两年多历史的模型训练成本据说超过1亿美元。这些成本来自图形处理单元(GPU)的价格和运行这些芯片所需的能源,GPU主要由英伟达等公司制造,每模块成本可达2-3万美元或更多。
基准测试性能
MiniMax-M1已在一系列测试高级推理、软件工程和工具使用能力的既定基准上进行评估。
在数学竞赛基准AIME 2024上,M1-80k模型达到86.0%的准确率。在编码和长上下文任务中也表现优异:
LiveCodeBench得分65.0% SWE-bench Verified得分56.0% TAU-bench得分62.8% OpenAI MRCR(4-needle版本)得分73.4%
这些结果使MiniMax-M1在多个复杂任务上领先于DeepSeek-R1和Qwen3-235B-A22B等其他开放权重竞争对手。
虽然OpenAI o3和Gemini 2.5 Pro等封闭权重模型在某些基准上仍占据榜首,但MiniMax-M1大幅缩小了性能差距,同时在Apache-2.0许可证下保持免费访问。
部署选项和开发工具
对于部署,MiniMax推荐vLLM作为服务后端,因其针对大型模型工作负载、内存效率和批处理请求处理的优化。公司还提供使用Transformers库的部署选项。
MiniMax-M1包含结构化函数调用功能,并配备具有在线搜索、视频和图像生成、语音合成和语音克隆工具的聊天机器人API。这些功能旨在支持实际应用中更广泛的智能行为。
对技术决策者和企业买家的意义
MiniMax-M1的开放访问、长上下文能力和计算效率解决了负责大规模管理AI系统的技术专业人员面临的几个反复出现的挑战。
对于负责LLM全生命周期管理的工程主管——如优化模型性能和在紧张时间内部署——MiniMax-M1提供了更低的运营成本配置,同时支持高级推理任务。其长上下文窗口可以显著减少对跨越数万或数十万token的企业文档或日志数据的预处理工作。
对于管理AI编排流水线的人员,使用vLLM或Transformers等成熟工具对MiniMax-M1进行微调和部署的能力支持更容易地集成到现有基础设施中。混合注意力架构可能有助于简化扩展策略,该模型在多步推理和软件工程基准上的竞争性表现为内部副驾驶或基于智能体的系统提供了高能力基础。
从数据平台角度来看,负责维护高效、可扩展基础设施的团队可以从M1对结构化函数调用的支持及其与自动化流水线的兼容性中受益。其开源性质允许团队在没有供应商锁定的情况下为其技术栈定制性能。
安全主管也可能发现M1在高能力模型的安全本地部署方面的价值,该模型不依赖于向第三方端点传输敏感数据。
综合考虑,MiniMax-M1为寻求实验或扩展先进AI能力的组织提供了灵活选择,同时管理成本、保持在运营限制内并避免专有约束。
此次发布表明MiniMax持续专注于实用、可扩展的AI模型。通过将开放访问与先进架构和计算效率相结合,MiniMax-M1可能成为构建需要推理深度和长距离输入理解的下一代应用的开发者的基础模型。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。