在 Meta 公司应对其新发布的 Llama 4 模型系列的质疑和批评之际,GPU 巨头 Nvidia 发布了一款全新的完全开源大语言模型 (LLM),该模型基于 Meta 较早的 Llama-3.1-405B-Instruct 模型。Nvidia 声称这款新模型在多项第三方基准测试中表现出接近顶级的性能,甚至超越了备受推崇的开源推理模型 DeepSeek R1。
Llama-3.1-Nemotron-Ultra-253B-v1 是一个拥有 2530 亿参数的密集模型,旨在支持高级推理、指令遵循和 AI 助手工作流程。该模型最早在今年 3 月 Nvidia 年度 GPU 技术大会 (GTC) 上被提及。
此次发布反映了 Nvidia 通过架构创新和有针对性的后训练持续专注于性能优化。
该模型于 2025 年 4 月 7 日晚宣布发布,代码现已在 Hugging Face 上公开,包括开放权重和后训练数据。它被设计为可以在"推理开启"和"推理关闭"两种模式下高效运行,允许开发者根据系统提示在高复杂度推理任务和更直接的输出之间切换。
为高效推理而设计
Llama-3.1-Nemotron-Ultra-253B 建立在 Nvidia 之前在推理优化 LLM 开发方面的工作基础上。其架构通过神经架构搜索 (NAS) 过程定制,引入了结构变化,如跳过注意力层、融合前馈网络 (FFN) 和可变 FFN 压缩比。
这种架构重组减少了内存占用和计算需求,同时不会严重影响输出质量,使其能够部署在单个 8x H100 GPU 节点上。
根据 Nvidia 的说法,结果是一个在提供强大性能的同时,在数据中心环境中部署更具成本效益的模型。额外的硬件兼容性包括对 Nvidia 的 B100 和 Hopper 微架构的支持,并在 BF16 和 FP8 精度模式下进行了验证。
推理和对齐的后训练
Nvidia 通过多阶段后训练流程增强了基础模型。这包括在数学、代码生成、聊天和工具使用等领域进行监督微调,随后通过群组相对策略优化 (GRPO) 进行强化学习,进一步提升指令遵循和推理性能。
该模型经历了 650 亿 token 的知识蒸馏阶段,随后在额外的 880 亿 token 上进行了持续预训练。
训练数据集包括 FineWeb、Buzz-V1.2 和 Dolma 等来源。后训练提示和响应来自公共语料库和合成生成方法的组合,包括教导模型区分其推理模式的数据集。
在众多领域和基准测试中性能显著提升
评估结果显示,当模型在启用推理模式下运行时,性能有显著提升。例如,在 MATH500 基准测试中,性能从标准模式下的 80.40% 提升到启用推理后的 97.00%。
同样,AIME25 基准测试的结果从 16.67% 提高到 72.50%,LiveCodeBench 分数更是翻了一倍多,从 29.03% 跃升至 66.31%。
在基于工具的任务(如 BFCL V2 和函数组合)以及通用问答 (GPQA) 中也观察到性能提升,在推理模式下模型得分为 76.01%,而不使用推理时为 56.60%。
这些基准测试是在最大序列长度为 32,000 token 的条件下进行的,每项测试重复多达 16 次以确保准确性。
与拥有 6710 亿总参数的最先进 MoE 模型 DeepSeek R1 相比,尽管 Llama-3.1-Nemotron-Ultra-253B 的参数量不到其一半,但仍显示出具有竞争力的结果——在 GPQA (76.01 vs. 71.5)、IFEval 指令遵循 (89.45 vs. 83.3) 和 LiveCodeBench 编码任务 (66.31 vs. 65.9) 等方面表现更佳。
同时,DeepSeek R1 在某些数学评估上保持明显优势,特别是 AIME25 (79.8 vs. 72.50),并在 MATH500 上略胜一筹 (97.3 vs. 97.00)。
这些结果表明,尽管是密集模型,Nvidia 的产品在推理和通用指令对齐任务上能够匹配或超越 MoE 替代方案,而在数学密集型类别中略有落后。
使用和集成
该模型与 Hugging Face Transformers 库(推荐版本 4.48.3)兼容,支持长达 128,000 token 的输入和输出序列。
开发者可以通过系统提示控制推理行为,并根据任务需求选择解码策略。
对于推理任务,Nvidia 建议使用温度采样(0.6)和 top-p 值 0.95。对于确定性输出,则推荐贪婪解码。
Llama-3.1-Nemotron-Ultra-253B 支持多语言应用,具备英语和其他几种语言的能力,包括德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
它也适用于常见的 LLM 用例,如聊天机器人开发、AI 代理工作流、检索增强生成 (RAG) 和代码生成。
商业使用许可
该模型在 Nvidia 开放模型许可证下发布,并受 Llama 3.1 社区许可协议管辖,可用于商业用途。
Nvidia 强调了负责任的 AI 开发的重要性,鼓励团队评估模型对其特定用例的对齐、安全性和偏见概况。
Nvidia AI 模型后训练总监 Oleksii Kuchaiev 在 X 平台上分享了这一消息,表示团队很高兴分享这一开放发布,将其描述为一个具有可切换开/关推理能力的密集 2530 亿参数模型,并发布了开放权重和数据。
好文章,需要你的鼓励
尽管全球企业AI投资在2024年达到2523亿美元,但MIT研究显示95%的企业仍未从生成式AI投资中获得回报。专家预测2026年将成为转折点,企业将从试点阶段转向实际部署。关键在于CEO精准识别高影响领域,推进AI代理技术应用,并加强员工AI能力培训。Forrester预测30%大型企业将实施强制AI培训,而Gartner预计到2028年15%日常工作决策将由AI自主完成。
这项由北京大学等机构联合完成的研究,开发了名为GraphLocator的智能软件问题诊断系统,通过构建代码依赖图和因果问题图,能够像医生诊断疾病一样精确定位软件问题的根源。在三个大型数据集的测试中,该系统比现有方法平均提高了19.49%的召回率和11.89%的精确率,特别在处理复杂的跨模块问题时表现优异,为软件维护效率的提升开辟了新路径。
2026年软件行业将迎来定价模式的根本性变革,从传统按席位收费转向基于结果的付费模式。AI正在重塑整个软件经济学,企业IT预算的12-15%已投入AI领域。这一转变要求建立明确的成功衡量指标,如Zendesk以"自动化解决方案"为标准。未来将出现更精简的工程团队,80%的工程师需要为AI驱动的角色提升技能,同时需要重新设计软件开发和部署流程以适应AI优先的工作流程。
这项由德国达姆施塔特工业大学领导的国际研究团队首次发现,当前最先进的专家混合模型AI系统存在严重安全漏洞。通过开发GateBreaker攻击框架,研究人员证明仅需关闭约3%的特定神经元,就能让AI的攻击成功率从7.4%暴增至64.9%。该研究揭示了专家混合模型安全机制过度集中的根本缺陷,为AI安全领域敲响了警钟。