美团开源1.6万亿参数LongCat-2.0大语言模型,声称使用国产芯片训练

美团今日发布新一代开源大语言模型LongCat-2.0,参数量达1.6万亿,采用稀疏混合专家架构(MoE),支持100万token超长上下文窗口。该模型完全基于国产AI芯片集群训练,有效降低对英伟达GPU的依赖。美团表示,LongCat-2.0定位为AI智能体的"大脑"核心,在代码理解、自动化任务执行及长期目标管理等方面表现突出,其综合性能可与谷歌Gemini、GPT-5.5及Claude Opus等顶级闭源模型媲美。

总部位于北京的美团股份有限公司近日正式发布了新一代开源大语言模型LongCat-2.0。美团表示,这一拥有1.6万亿参数的大模型完全基于国产芯片及国内算力集群进行训练。

对于这一超大规模模型而言,开源发布本身并不是最大的看点,其背后全程采用国产硬件的训练路径才更值得关注。

美团最初给人的印象可能并不像一家AI模型研发公司。它通常被视为中国版DoorDash,最初以国内领先的外卖平台起家,后来逐渐演变为一个涵盖旅行休闲预订、本地商户发现与评价以及网约车等多种服务的综合平台。早在2023年,美团便以2.81亿美元收购初创公司光年之外,正式入局AI模型研发,但直到2025年才对外宣布内部自研AI大模型的计划。

从技术架构来看,LongCat-2.0采用了与Mistral AI的Mixtral和DeepSeek相似的稀疏混合专家(MoE)架构。该模型通过内部路由机制,针对每个Token动态选择特定的"专家AI",而非激活整个模型。这种设计在模型部署和推理阶段具有显著的效率优势,使MoE模型能够在更低成本的硬件上扩展运行,而无需在每次Token计算时调用全部模型参数。

LongCat-2.0拥有1.6万亿参数,体量庞大,同时支持100万Token的超长上下文窗口,允许用户一次性输入海量数据。相较之下,DeepSeek-R1-0528和OpenAI的开源模型GPT-OSS等同类MoE模型更注重较小的激活规模,并采用业界标准的12.8万Token上下文窗口;而LongCat-2.0则以超大参数量和超长上下文处理能力为核心差异化方向。

美团发布的基准测试结果显示,LongCat-2.0的表现可与谷歌Gemini、OpenAI GPT-5.5以及Anthropic Claude Opus等顶级闭源商业模型相媲美。美团表示,LongCat-2.0被定位为AI智能体和编程辅助工具的"大脑"核心,适配Claude Code、OpenClaw和Hermes等平台。该模型在代码理解、仓库级别代码编辑、自动化任务执行及智能体工作流等方面表现突出,旨在为开发者提供一套稳定高效的长期目标编排与任务管理工具。

国产芯片路线的战略意义

美团表示,LongCat-2.0的训练和优化均基于国产AI专用集成电路(ASIC)集群完成。这一选择有其现实背景——中国长期面临英伟达顶级CUDA架构GPU及相关芯片组的出口管制压力。

尽管英伟达芯片目前仍可向中国出口,但出口管制带来的不确定性已促使中国积极寻求替代方案。据全球股票研究机构Bernstein在2025年发布的报告估计,英伟达在中国AI芯片市场约占40%的份额,与华为的市场份额大致相当,并预测英伟达今年市场份额将下滑约8%,为华为提供进一步扩张的空间。

LongCat-2.0基于国产芯片训练,意味着其在国内可用芯片上将具备可靠的运行表现和良好的性能发挥,同时有效降低对英伟达专有软件生态及其市场主导地位的依赖。美团表示,该模型在ASIC"超级计算节点"上完成训练,暗示其部署将深度整合于同一国产生态体系,而非依赖第三方硬件。

凭借1.6万亿的参数规模,LongCat-2.0短期内不会出现在消费级硬件上,对大多数企业的本地化部署而言同样难以实现。在如此体量下,该模型将运行于数据中心或云环境中,借助模型并行技术分布在高密度推理集群上进行统一管理。若美团所描述的架构属实,其核心推理能力具备一定的硬件迁移性,但针对国产芯片的性能优化优势将持续保留。

Q&A

Q1:LongCat-2.0大语言模型有什么技术特点?

A:LongCat-2.0是美团推出的开源大语言模型,拥有1.6万亿参数和100万Token的超长上下文窗口。它采用稀疏混合专家(MoE)架构,通过内部路由机制按需激活"专家AI",在降低硬件成本的同时保持高效推理能力,性能对标谷歌Gemini、OpenAI GPT-5.5等顶级闭源商业模型。

Q2:美团LongCat-2.0为什么要使用国产芯片训练?

A:由于中国长期面临英伟达高端GPU出口管制的不确定性,美团选择在国产ASIC集群上完成LongCat-2.0的训练与优化。这一策略使模型在国内可用芯片上具备更可靠的运行表现,同时减少对英伟达专有软件生态的依赖,与华为等国产芯片厂商形成更紧密的生态协同。

Q3:LongCat-2.0适合哪些应用场景?

A:LongCat-2.0主要定位为AI智能体和编程辅助工具的核心"大脑",适配Claude Code、OpenClaw和Hermes等平台。它在代码理解、仓库级代码编辑、自动化任务执行及智能体工作流方面表现突出,适合需要长期目标编排和复杂任务管理的开发者使用,主要部署于数据中心或云环境中。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2026

07/01

17:50

分享

点赞

邮件订阅