总部位于北京的美团股份有限公司近日正式发布了新一代开源大语言模型LongCat-2.0。美团表示,这一拥有1.6万亿参数的大模型完全基于国产芯片及国内算力集群进行训练。
对于这一超大规模模型而言,开源发布本身并不是最大的看点,其背后全程采用国产硬件的训练路径才更值得关注。
美团最初给人的印象可能并不像一家AI模型研发公司。它通常被视为中国版DoorDash,最初以国内领先的外卖平台起家,后来逐渐演变为一个涵盖旅行休闲预订、本地商户发现与评价以及网约车等多种服务的综合平台。早在2023年,美团便以2.81亿美元收购初创公司光年之外,正式入局AI模型研发,但直到2025年才对外宣布内部自研AI大模型的计划。
从技术架构来看,LongCat-2.0采用了与Mistral AI的Mixtral和DeepSeek相似的稀疏混合专家(MoE)架构。该模型通过内部路由机制,针对每个Token动态选择特定的"专家AI",而非激活整个模型。这种设计在模型部署和推理阶段具有显著的效率优势,使MoE模型能够在更低成本的硬件上扩展运行,而无需在每次Token计算时调用全部模型参数。
LongCat-2.0拥有1.6万亿参数,体量庞大,同时支持100万Token的超长上下文窗口,允许用户一次性输入海量数据。相较之下,DeepSeek-R1-0528和OpenAI的开源模型GPT-OSS等同类MoE模型更注重较小的激活规模,并采用业界标准的12.8万Token上下文窗口;而LongCat-2.0则以超大参数量和超长上下文处理能力为核心差异化方向。
美团发布的基准测试结果显示,LongCat-2.0的表现可与谷歌Gemini、OpenAI GPT-5.5以及Anthropic Claude Opus等顶级闭源商业模型相媲美。美团表示,LongCat-2.0被定位为AI智能体和编程辅助工具的"大脑"核心,适配Claude Code、OpenClaw和Hermes等平台。该模型在代码理解、仓库级别代码编辑、自动化任务执行及智能体工作流等方面表现突出,旨在为开发者提供一套稳定高效的长期目标编排与任务管理工具。
国产芯片路线的战略意义
美团表示,LongCat-2.0的训练和优化均基于国产AI专用集成电路(ASIC)集群完成。这一选择有其现实背景——中国长期面临英伟达顶级CUDA架构GPU及相关芯片组的出口管制压力。
尽管英伟达芯片目前仍可向中国出口,但出口管制带来的不确定性已促使中国积极寻求替代方案。据全球股票研究机构Bernstein在2025年发布的报告估计,英伟达在中国AI芯片市场约占40%的份额,与华为的市场份额大致相当,并预测英伟达今年市场份额将下滑约8%,为华为提供进一步扩张的空间。
LongCat-2.0基于国产芯片训练,意味着其在国内可用芯片上将具备可靠的运行表现和良好的性能发挥,同时有效降低对英伟达专有软件生态及其市场主导地位的依赖。美团表示,该模型在ASIC"超级计算节点"上完成训练,暗示其部署将深度整合于同一国产生态体系,而非依赖第三方硬件。
凭借1.6万亿的参数规模,LongCat-2.0短期内不会出现在消费级硬件上,对大多数企业的本地化部署而言同样难以实现。在如此体量下,该模型将运行于数据中心或云环境中,借助模型并行技术分布在高密度推理集群上进行统一管理。若美团所描述的架构属实,其核心推理能力具备一定的硬件迁移性,但针对国产芯片的性能优化优势将持续保留。
Q&A
Q1:LongCat-2.0大语言模型有什么技术特点?
A:LongCat-2.0是美团推出的开源大语言模型,拥有1.6万亿参数和100万Token的超长上下文窗口。它采用稀疏混合专家(MoE)架构,通过内部路由机制按需激活"专家AI",在降低硬件成本的同时保持高效推理能力,性能对标谷歌Gemini、OpenAI GPT-5.5等顶级闭源商业模型。
Q2:美团LongCat-2.0为什么要使用国产芯片训练?
A:由于中国长期面临英伟达高端GPU出口管制的不确定性,美团选择在国产ASIC集群上完成LongCat-2.0的训练与优化。这一策略使模型在国内可用芯片上具备更可靠的运行表现,同时减少对英伟达专有软件生态的依赖,与华为等国产芯片厂商形成更紧密的生态协同。
Q3:LongCat-2.0适合哪些应用场景?
A:LongCat-2.0主要定位为AI智能体和编程辅助工具的核心"大脑",适配Claude Code、OpenClaw和Hermes等平台。它在代码理解、仓库级代码编辑、自动化任务执行及智能体工作流方面表现突出,适合需要长期目标编排和复杂任务管理的开发者使用,主要部署于数据中心或云环境中。
好文章,需要你的鼓励
在2026年爱迪生电气协会年会上,共和党籍佐治亚州长肯普与民主党籍亚利桑那州长霍布斯罕见达成共识:数据中心带来的电网扩容成本不应转嫁给普通居民。两位州长均支持"增长自付"原则,并倡导多元化能源组合。肯普强调核电与冻结居民电费,霍布斯则推动取消数据中心税收豁免并征收水费。两人跨越党派分歧的一致立场,折射出美国电力行业应对数据中心爆发式增长的主流方向。
这项研究系统比较了四种AI图像分词策略在640000张星系图像上的表现,发现重建质量与物理属性预测能力之间存在根本性解耦,为天文基础模型的分词器选择提供了实验依据。
北美电网今夏首次无高风险区域,NERC评估显示58GW新增资源使各地储备充足。然而业内专家普遍警告,这不过是暂时喘息:数据中心并网延迟、太阳能与储能主导新增供应、劳动力短缺、融资困难及气候依赖性上升等问题依然严峻。预计未来两三年内,延迟的数据中心负荷将集中上线,电力系统将面临更大压力,并购整合浪潮也在加速重塑行业格局。
阿里Qwen团队研究如何将大模型的规模化训练思路迁移到机器人操作领域,通过统一多机器人表示与38100小时数据预训练,让机器人在陌生场景和陌生机型上也能完成复杂操作任务。