Nvidia 新型 Llama-3.1 Nemotron Ultra 以一半参数量超越 DeepSeek R1

英伟达发布了基于 Meta 旧版 Llama-3.1 的全新开源大语言模型 Llama-3.1-Nemotron-Ultra-253B。该模型在多项第三方基准测试中表现出色,尽管参数量仅为 DeepSeek R1 的一半,但在许多任务上都超越了这个强大的竞争对手。新模型支持高级推理、指令跟随和 AI 助手工作流,采用了创新架构和针对性后训练来优化性能。

在 Meta 公司应对其新发布的 Llama 4 模型系列的质疑和批评之际,GPU 巨头 Nvidia 发布了一款全新的完全开源大语言模型 (LLM),该模型基于 Meta 较早的 Llama-3.1-405B-Instruct 模型。Nvidia 声称这款新模型在多项第三方基准测试中表现出接近顶级的性能,甚至超越了备受推崇的开源推理模型 DeepSeek R1。

Llama-3.1-Nemotron-Ultra-253B-v1 是一个拥有 2530 亿参数的密集模型,旨在支持高级推理、指令遵循和 AI 助手工作流程。该模型最早在今年 3 月 Nvidia 年度 GPU 技术大会 (GTC) 上被提及。

此次发布反映了 Nvidia 通过架构创新和有针对性的后训练持续专注于性能优化。

该模型于 2025 年 4 月 7 日晚宣布发布,代码现已在 Hugging Face 上公开,包括开放权重和后训练数据。它被设计为可以在"推理开启"和"推理关闭"两种模式下高效运行,允许开发者根据系统提示在高复杂度推理任务和更直接的输出之间切换。

为高效推理而设计

Llama-3.1-Nemotron-Ultra-253B 建立在 Nvidia 之前在推理优化 LLM 开发方面的工作基础上。其架构通过神经架构搜索 (NAS) 过程定制,引入了结构变化,如跳过注意力层、融合前馈网络 (FFN) 和可变 FFN 压缩比。

这种架构重组减少了内存占用和计算需求,同时不会严重影响输出质量,使其能够部署在单个 8x H100 GPU 节点上。

根据 Nvidia 的说法,结果是一个在提供强大性能的同时,在数据中心环境中部署更具成本效益的模型。额外的硬件兼容性包括对 Nvidia 的 B100 和 Hopper 微架构的支持,并在 BF16 和 FP8 精度模式下进行了验证。

推理和对齐的后训练

Nvidia 通过多阶段后训练流程增强了基础模型。这包括在数学、代码生成、聊天和工具使用等领域进行监督微调,随后通过群组相对策略优化 (GRPO) 进行强化学习,进一步提升指令遵循和推理性能。

该模型经历了 650 亿 token 的知识蒸馏阶段,随后在额外的 880 亿 token 上进行了持续预训练。

训练数据集包括 FineWeb、Buzz-V1.2 和 Dolma 等来源。后训练提示和响应来自公共语料库和合成生成方法的组合,包括教导模型区分其推理模式的数据集。

在众多领域和基准测试中性能显著提升

评估结果显示,当模型在启用推理模式下运行时,性能有显著提升。例如,在 MATH500 基准测试中,性能从标准模式下的 80.40% 提升到启用推理后的 97.00%。

同样,AIME25 基准测试的结果从 16.67% 提高到 72.50%,LiveCodeBench 分数更是翻了一倍多,从 29.03% 跃升至 66.31%。

在基于工具的任务(如 BFCL V2 和函数组合)以及通用问答 (GPQA) 中也观察到性能提升,在推理模式下模型得分为 76.01%,而不使用推理时为 56.60%。

这些基准测试是在最大序列长度为 32,000 token 的条件下进行的,每项测试重复多达 16 次以确保准确性。

与拥有 6710 亿总参数的最先进 MoE 模型 DeepSeek R1 相比,尽管 Llama-3.1-Nemotron-Ultra-253B 的参数量不到其一半,但仍显示出具有竞争力的结果——在 GPQA (76.01 vs. 71.5)、IFEval 指令遵循 (89.45 vs. 83.3) 和 LiveCodeBench 编码任务 (66.31 vs. 65.9) 等方面表现更佳。

同时,DeepSeek R1 在某些数学评估上保持明显优势,特别是 AIME25 (79.8 vs. 72.50),并在 MATH500 上略胜一筹 (97.3 vs. 97.00)。

这些结果表明,尽管是密集模型,Nvidia 的产品在推理和通用指令对齐任务上能够匹配或超越 MoE 替代方案,而在数学密集型类别中略有落后。

使用和集成

该模型与 Hugging Face Transformers 库(推荐版本 4.48.3)兼容,支持长达 128,000 token 的输入和输出序列。

开发者可以通过系统提示控制推理行为,并根据任务需求选择解码策略。

对于推理任务,Nvidia 建议使用温度采样(0.6)和 top-p 值 0.95。对于确定性输出,则推荐贪婪解码。

Llama-3.1-Nemotron-Ultra-253B 支持多语言应用,具备英语和其他几种语言的能力,包括德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

它也适用于常见的 LLM 用例,如聊天机器人开发、AI 代理工作流、检索增强生成 (RAG) 和代码生成。

商业使用许可

该模型在 Nvidia 开放模型许可证下发布,并受 Llama 3.1 社区许可协议管辖,可用于商业用途。

Nvidia 强调了负责任的 AI 开发的重要性,鼓励团队评估模型对其特定用例的对齐、安全性和偏见概况。

Nvidia AI 模型后训练总监 Oleksii Kuchaiev 在 X 平台上分享了这一消息,表示团队很高兴分享这一开放发布,将其描述为一个具有可切换开/关推理能力的密集 2530 亿参数模型,并发布了开放权重和数据。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

04/09

16:02

分享

点赞

邮件订阅