在 Meta 公司应对其新发布的 Llama 4 模型系列的质疑和批评之际,GPU 巨头 Nvidia 发布了一款全新的完全开源大语言模型 (LLM),该模型基于 Meta 较早的 Llama-3.1-405B-Instruct 模型。Nvidia 声称这款新模型在多项第三方基准测试中表现出接近顶级的性能,甚至超越了备受推崇的开源推理模型 DeepSeek R1。
Llama-3.1-Nemotron-Ultra-253B-v1 是一个拥有 2530 亿参数的密集模型,旨在支持高级推理、指令遵循和 AI 助手工作流程。该模型最早在今年 3 月 Nvidia 年度 GPU 技术大会 (GTC) 上被提及。
此次发布反映了 Nvidia 通过架构创新和有针对性的后训练持续专注于性能优化。
该模型于 2025 年 4 月 7 日晚宣布发布,代码现已在 Hugging Face 上公开,包括开放权重和后训练数据。它被设计为可以在"推理开启"和"推理关闭"两种模式下高效运行,允许开发者根据系统提示在高复杂度推理任务和更直接的输出之间切换。
为高效推理而设计
Llama-3.1-Nemotron-Ultra-253B 建立在 Nvidia 之前在推理优化 LLM 开发方面的工作基础上。其架构通过神经架构搜索 (NAS) 过程定制,引入了结构变化,如跳过注意力层、融合前馈网络 (FFN) 和可变 FFN 压缩比。
这种架构重组减少了内存占用和计算需求,同时不会严重影响输出质量,使其能够部署在单个 8x H100 GPU 节点上。
根据 Nvidia 的说法,结果是一个在提供强大性能的同时,在数据中心环境中部署更具成本效益的模型。额外的硬件兼容性包括对 Nvidia 的 B100 和 Hopper 微架构的支持,并在 BF16 和 FP8 精度模式下进行了验证。
推理和对齐的后训练
Nvidia 通过多阶段后训练流程增强了基础模型。这包括在数学、代码生成、聊天和工具使用等领域进行监督微调,随后通过群组相对策略优化 (GRPO) 进行强化学习,进一步提升指令遵循和推理性能。
该模型经历了 650 亿 token 的知识蒸馏阶段,随后在额外的 880 亿 token 上进行了持续预训练。
训练数据集包括 FineWeb、Buzz-V1.2 和 Dolma 等来源。后训练提示和响应来自公共语料库和合成生成方法的组合,包括教导模型区分其推理模式的数据集。
在众多领域和基准测试中性能显著提升
评估结果显示,当模型在启用推理模式下运行时,性能有显著提升。例如,在 MATH500 基准测试中,性能从标准模式下的 80.40% 提升到启用推理后的 97.00%。
同样,AIME25 基准测试的结果从 16.67% 提高到 72.50%,LiveCodeBench 分数更是翻了一倍多,从 29.03% 跃升至 66.31%。
在基于工具的任务(如 BFCL V2 和函数组合)以及通用问答 (GPQA) 中也观察到性能提升,在推理模式下模型得分为 76.01%,而不使用推理时为 56.60%。
这些基准测试是在最大序列长度为 32,000 token 的条件下进行的,每项测试重复多达 16 次以确保准确性。
与拥有 6710 亿总参数的最先进 MoE 模型 DeepSeek R1 相比,尽管 Llama-3.1-Nemotron-Ultra-253B 的参数量不到其一半,但仍显示出具有竞争力的结果——在 GPQA (76.01 vs. 71.5)、IFEval 指令遵循 (89.45 vs. 83.3) 和 LiveCodeBench 编码任务 (66.31 vs. 65.9) 等方面表现更佳。
同时,DeepSeek R1 在某些数学评估上保持明显优势,特别是 AIME25 (79.8 vs. 72.50),并在 MATH500 上略胜一筹 (97.3 vs. 97.00)。
这些结果表明,尽管是密集模型,Nvidia 的产品在推理和通用指令对齐任务上能够匹配或超越 MoE 替代方案,而在数学密集型类别中略有落后。
使用和集成
该模型与 Hugging Face Transformers 库(推荐版本 4.48.3)兼容,支持长达 128,000 token 的输入和输出序列。
开发者可以通过系统提示控制推理行为,并根据任务需求选择解码策略。
对于推理任务,Nvidia 建议使用温度采样(0.6)和 top-p 值 0.95。对于确定性输出,则推荐贪婪解码。
Llama-3.1-Nemotron-Ultra-253B 支持多语言应用,具备英语和其他几种语言的能力,包括德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
它也适用于常见的 LLM 用例,如聊天机器人开发、AI 代理工作流、检索增强生成 (RAG) 和代码生成。
商业使用许可
该模型在 Nvidia 开放模型许可证下发布,并受 Llama 3.1 社区许可协议管辖,可用于商业用途。
Nvidia 强调了负责任的 AI 开发的重要性,鼓励团队评估模型对其特定用例的对齐、安全性和偏见概况。
Nvidia AI 模型后训练总监 Oleksii Kuchaiev 在 X 平台上分享了这一消息,表示团队很高兴分享这一开放发布,将其描述为一个具有可切换开/关推理能力的密集 2530 亿参数模型,并发布了开放权重和数据。
好文章,需要你的鼓励
随着员工自发使用生成式AI工具,CIO面临影子AI的挑战。报告显示43%的员工在个人设备上使用AI应用处理工作,25%在工作中使用未经批准的AI工具。专家建议通过六项策略管理影子AI:建立明确规则框架、持续监控和清单跟踪、加强数据保护和访问控制、明确风险承受度、营造透明信任文化、实施持续的角色化AI培训。目标是支持负责任的创新而非完全禁止。
NVIDIA研究团队开发的OmniVinci是一个突破性的多模态AI模型,能够同时理解视觉、听觉和文本信息。该模型仅使用0.2万亿训练样本就超越了使用1.2万亿样本的现有模型,在多模态理解测试中领先19.05分。OmniVinci采用三项核心技术实现感官信息协同,并在机器人导航、医疗诊断、体育分析等多个实际应用场景中展现出专业级能力,代表着AI向真正智能化发展的重要进步。
英国正式推出DaRe2THINK数字平台,旨在简化NHS全科医生参与临床试验的流程。该平台由伯明翰大学和MHRA临床实践研究数据链开发,能够安全传输GP诊所与NHS试验研究人员之间的健康数据,减少医生的管理负担。平台利用NHS现有健康信息,安全筛查来自450多家诊所的1300万患者记录,并使用移动消息系统保持试验对象参与度,为传统上无法参与的人群开辟了研究机会。
Salesforce研究团队发布BLIP3o-NEXT,这是一个创新的图像生成模型,采用自回归+扩散的双重架构设计。该模型首次成功将强化学习应用于图像生成,在多物体组合和文字渲染方面表现优异。尽管只有30亿参数,但在GenEval测试中获得0.91高分,超越多个大型竞争对手。研究团队承诺完全开源所有技术细节。