在 Meta 公司应对其新发布的 Llama 4 模型系列的质疑和批评之际,GPU 巨头 Nvidia 发布了一款全新的完全开源大语言模型 (LLM),该模型基于 Meta 较早的 Llama-3.1-405B-Instruct 模型。Nvidia 声称这款新模型在多项第三方基准测试中表现出接近顶级的性能,甚至超越了备受推崇的开源推理模型 DeepSeek R1。
Llama-3.1-Nemotron-Ultra-253B-v1 是一个拥有 2530 亿参数的密集模型,旨在支持高级推理、指令遵循和 AI 助手工作流程。该模型最早在今年 3 月 Nvidia 年度 GPU 技术大会 (GTC) 上被提及。
此次发布反映了 Nvidia 通过架构创新和有针对性的后训练持续专注于性能优化。
该模型于 2025 年 4 月 7 日晚宣布发布,代码现已在 Hugging Face 上公开,包括开放权重和后训练数据。它被设计为可以在"推理开启"和"推理关闭"两种模式下高效运行,允许开发者根据系统提示在高复杂度推理任务和更直接的输出之间切换。
为高效推理而设计
Llama-3.1-Nemotron-Ultra-253B 建立在 Nvidia 之前在推理优化 LLM 开发方面的工作基础上。其架构通过神经架构搜索 (NAS) 过程定制,引入了结构变化,如跳过注意力层、融合前馈网络 (FFN) 和可变 FFN 压缩比。
这种架构重组减少了内存占用和计算需求,同时不会严重影响输出质量,使其能够部署在单个 8x H100 GPU 节点上。
根据 Nvidia 的说法,结果是一个在提供强大性能的同时,在数据中心环境中部署更具成本效益的模型。额外的硬件兼容性包括对 Nvidia 的 B100 和 Hopper 微架构的支持,并在 BF16 和 FP8 精度模式下进行了验证。
推理和对齐的后训练
Nvidia 通过多阶段后训练流程增强了基础模型。这包括在数学、代码生成、聊天和工具使用等领域进行监督微调,随后通过群组相对策略优化 (GRPO) 进行强化学习,进一步提升指令遵循和推理性能。
该模型经历了 650 亿 token 的知识蒸馏阶段,随后在额外的 880 亿 token 上进行了持续预训练。
训练数据集包括 FineWeb、Buzz-V1.2 和 Dolma 等来源。后训练提示和响应来自公共语料库和合成生成方法的组合,包括教导模型区分其推理模式的数据集。
在众多领域和基准测试中性能显著提升
评估结果显示,当模型在启用推理模式下运行时,性能有显著提升。例如,在 MATH500 基准测试中,性能从标准模式下的 80.40% 提升到启用推理后的 97.00%。
同样,AIME25 基准测试的结果从 16.67% 提高到 72.50%,LiveCodeBench 分数更是翻了一倍多,从 29.03% 跃升至 66.31%。
在基于工具的任务(如 BFCL V2 和函数组合)以及通用问答 (GPQA) 中也观察到性能提升,在推理模式下模型得分为 76.01%,而不使用推理时为 56.60%。
这些基准测试是在最大序列长度为 32,000 token 的条件下进行的,每项测试重复多达 16 次以确保准确性。
与拥有 6710 亿总参数的最先进 MoE 模型 DeepSeek R1 相比,尽管 Llama-3.1-Nemotron-Ultra-253B 的参数量不到其一半,但仍显示出具有竞争力的结果——在 GPQA (76.01 vs. 71.5)、IFEval 指令遵循 (89.45 vs. 83.3) 和 LiveCodeBench 编码任务 (66.31 vs. 65.9) 等方面表现更佳。
同时,DeepSeek R1 在某些数学评估上保持明显优势,特别是 AIME25 (79.8 vs. 72.50),并在 MATH500 上略胜一筹 (97.3 vs. 97.00)。
这些结果表明,尽管是密集模型,Nvidia 的产品在推理和通用指令对齐任务上能够匹配或超越 MoE 替代方案,而在数学密集型类别中略有落后。
使用和集成
该模型与 Hugging Face Transformers 库(推荐版本 4.48.3)兼容,支持长达 128,000 token 的输入和输出序列。
开发者可以通过系统提示控制推理行为,并根据任务需求选择解码策略。
对于推理任务,Nvidia 建议使用温度采样(0.6)和 top-p 值 0.95。对于确定性输出,则推荐贪婪解码。
Llama-3.1-Nemotron-Ultra-253B 支持多语言应用,具备英语和其他几种语言的能力,包括德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。
它也适用于常见的 LLM 用例,如聊天机器人开发、AI 代理工作流、检索增强生成 (RAG) 和代码生成。
商业使用许可
该模型在 Nvidia 开放模型许可证下发布,并受 Llama 3.1 社区许可协议管辖,可用于商业用途。
Nvidia 强调了负责任的 AI 开发的重要性,鼓励团队评估模型对其特定用例的对齐、安全性和偏见概况。
Nvidia AI 模型后训练总监 Oleksii Kuchaiev 在 X 平台上分享了这一消息,表示团队很高兴分享这一开放发布,将其描述为一个具有可切换开/关推理能力的密集 2530 亿参数模型,并发布了开放权重和数据。
好文章,需要你的鼓励
本文探讨如何使用生成式AI和大语言模型作为倾听者,帮助用户表达内心想法。许多主流AI如ChatGPT、Claude等被设计成用户的"最佳伙伴",或试图提供心理健康建议,但有时用户只想要一个尊重的倾听者。文章提供了有效的提示词技巧,指导AI保持中性、尊重的态度,专注于倾听和理解,而非给出建议或判断。同时提醒用户注意隐私保护和AI的局限性。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
人工通用智能和超级人工智能的出现,可能会创造出一种全新的外星智能形态。传统AI基于人类智能模式构建,但AGI和ASI一旦存在,可能会选择创造完全不同于人类认知方式的新型智能。这种外星人工智能既可能带来突破性进展,如找到癌症治愈方法,也可能存在未知风险。目前尚不确定这种新智能形态是否会超越人类智能,以及我们是否应该追求这一可能改变人类命运的技术突破。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。