AI智能体必须能够在大型上下文和长期时间段内进行合作、协调和执行,Nvidia表示,这需要一种新型的基础设施,一种开放的基础设施。
该公司表示,它已经找到了答案——推出全新的Nemotron 3开放模型家族。
开发人员和工程师可以使用这些新模型来创建特定领域的AI智能体或应用程序,而无需从头构建基础模型。Nvidia还发布了其大部分训练数据和强化学习(RL)库,供任何希望构建AI智能体的人使用。
"这是Nvidia对DeepSeek扰乱AI市场的回应,"西北AI咨询公司的Wyatt Mayham表示。"他们提供了一个具有企业支持和硬件优化的'业务就绪'开放替代方案。"
Nemotron 3具有Nvidia所称的"突破性混合潜在专家混合(MoE)架构"。该模型有三种规模:
Nano:最小且最具"计算成本效益"的版本,专为定向、高效的任务而设计,如快速信息检索、软件调试、内容摘要和AI助手工作流程。这个300亿参数模型一次激活30亿参数以提升速度,拥有100万Token的上下文窗口,使其能够在多步骤任务中记忆和连接信息。
Super:一个先进的高精度推理模型,拥有大约1000亿参数,每个Token最多激活100亿参数。它专为需要多个协作智能体来处理复杂任务的应用而设计,如深度研究和战略规划,具有低延迟特性。
Ultra:一个大型推理引擎,专为复杂AI应用而设计。它拥有5000亿参数,每个Token最多激活500亿参数。
Nemotron 3 Nano现已在Hugging Face以及其他推理服务提供商和企业AI及数据基础设施平台上提供。它很快将通过Amazon Bedrock在AWS上可用,并将在Google Cloud、CoreWeave、Microsoft Foundry和其他公共基础设施上得到支持。它还作为预构建的Nvidia NIM微服务提供。
Nemotron 3 Super和Ultra预计将在2026年上半年可用。
专家指出,这里的战略定位与API提供商根本不同。
"Nvidia并不试图与OpenAI或Anthropic的托管服务竞争——他们将自己定位为企业构建和拥有自己AI智能体的基础设施层,"Mayham说道。
Info-Tech研究集团的首席研究总监Brian Jackson同意Nemotron模型不是现成的产品。"它们更像是开发人员可以开始使用的预制餐包,"他说,"并在过程中进行所需的修改,以获得他们想要的确切效果。"
到目前为止,Nemotron 3似乎在效率和性能方面表现出令人印象深刻的提升;根据第三方基准测试公司Artificial Analysis的数据,Nano在同等规模的模型中最为高效,并在准确性方面领先。
Nvidia表示,Nano的混合Mamba-Transformer MoE架构将三种架构集成到单一骨干网络中,支持这种效率。Mamba层提供高效的序列建模,Transformer层提供精确推理,MoE路由提供可扩展的计算效率。该公司表示,这种设计相比Nemotron 2 Nano提供了4倍更高的Token吞吐量,同时将推理Token生成减少了高达60%。
"吞吐量是智能体AI的关键指标,"Mayham说。"当你协调数十个并发智能体时,推理成本会急剧上升。更高的吞吐量意味着每个Token的成本更低,实时智能体行为响应更快。"
他指出,推理Token生成减少60%解决了"冗长问题",即思维链(CoT)模型在产生有用输出之前会生成过多的内部推理。"对于构建多智能体系统的开发人员来说,这直接转化为更低的延迟和更少的计算成本。"
即将推出的Nemotron 3 Super,Nvidia表示,在需要多个协作智能体以低延迟实现复杂任务的应用中表现出色,而Nemotron 3 Ultra将作为需要深度研究和战略规划的AI工作流程的高级推理引擎。
Mayham解释说,这些尚未发布的模型具有潜在MoE功能,在专家路由之前将Token投影到较小的潜在维度中,"理论上"能够在相同推理成本下实现4倍的专家数量,因为它减少了GPU之间的通信开销。
Mayham表示,Nemotron 3背后结合Mamba-2层、稀疏Transformer和MoE路由的混合架构"在其组合方面确实新颖",尽管每种技术在其他地方都单独存在。
最终,Nemotron的定价是"有吸引力的",他说;开放权重可以免费下载并在本地运行。他指出,DeepInfra上的第三方API定价从每百万输入Token 0.06美元开始,"明显比GPT-4o便宜"。
为了强调其对开源的承诺,Nvidia正在揭示Nemotron 3的一些内部工作原理,发布具有真实世界遥测数据的安全评估数据集,以及Nemotron 3的预训练、后训练和RL数据集的3万亿Token。
此外,Nvidia正在开源其NeMo Gym和NeMo RL库,它们提供Nemotron 3的训练环境和后训练基础,以及NeMo Evaluator,帮助构建者验证模型安全性和性能。这些现在都在GitHub和Hugging Face上可用。其中,Mayham指出,NeMo Gym可能是此次发布中最"具有战略意义"的部分。
Mayham解释说,预训练教模型预测Token,而不是完成特定领域的任务,传统的人类反馈强化学习(RLHF)无法为复杂的智能体行为扩展。NeMo Gym启用了具有可验证奖励的RL——本质上是任务完成的计算验证,而不是主观的人类评分。也就是说,代码是否通过了测试?数学是否正确?工具是否被正确调用?
这为构建特定领域智能体的开发人员提供了基础设施,让他们在自己的工作流程上训练模型,而无需了解完整的RL训练循环。
Moor Insights & Strategy的副总裁兼首席分析师Jason Andersen解释说:"这个想法是NeMo Gym将加速模型RL作业的设置和执行。重要的区别是NeMo Gym将RL环境与训练本身分离,因此它可以轻松设置和创建多个训练实例(或'健身房')。"
Mayham称这种"前所未有的开放性"是Nemotron 3发布的真正差异化因素。"没有主要竞争对手提供这种程度的完整性,"他说。"对于企业来说,这意味着对定制、本地部署和成本优化的完全控制,这是封闭提供商根本无法匹配的。"
但Mayham指出,在能力方面存在权衡:Claude和GPT-4o在编程基准等专业任务上仍然优于Nemotron 3。然而,Nemotron 3似乎针对的是不同的买家:需要部署灵活性且不希望供应商锁定的企业。
"对企业的价值主张不是原始能力,而是开放权重、训练数据、部署灵活性和Nvidia生态系统集成的结合,这是封闭提供商无法匹配的,"他说。
Q&A
Q1:Nemotron 3有哪些规格型号?各自的特点是什么?
A:Nemotron 3有三个型号:Nano(300亿参数,计算成本最低,适用于信息检索、软件调试等高效任务)、Super(1000亿参数,高精度推理,适用于多智能体协作的复杂任务)、Ultra(5000亿参数,大型推理引擎,专为复杂AI应用设计)。
Q2:Nemotron 3相比传统模型有哪些技术优势?
A:Nemotron 3采用混合Mamba-Transformer MoE架构,相比Nemotron 2 Nano提供4倍更高的Token吞吐量,推理Token生成减少60%。这种设计结合了Mamba层的高效序列建模、Transformer层的精确推理和MoE路由的可扩展计算效率。
Q3:如何获取和使用Nemotron 3?价格如何?
A:Nemotron 3 Nano现已在Hugging Face等平台提供,开放权重免费下载本地运行。第三方API价格从每百万输入Token 0.06美元起,比GPT-4o便宜。Nvidia还开源了训练数据、强化学习库和评估工具供开发者使用。
好文章,需要你的鼓励
传统AI依赖云端处理存在延迟和隐私问题。越来越多开发者将AI处理从数据中心转移到手机、笔记本等个人设备上。设备端AI具有三大优势:速度更快,无需等待云端响应;隐私更安全,数据不离开设备;成本更低,无需支付云服务费用。目前iPhone已运行30亿参数的设备端AI模型,谷歌Pixel手机也搭载Gemini Nano模型。未来五年内,随着硬件升级和算法优化,设备端AI将实现物体识别、导航翻译等更复杂功能。
这篇论文提出了CJE(因果法官评估)框架,解决了当前LLM评估中的三大致命问题:AI法官偏好倒置、置信区间失效和离线策略评估失败。通过AutoCal-R校准、SIMCal-W权重稳定和OUA不确定性推理,CJE仅用5%的专家标签就达到了99%的排名准确率,成本降低14倍,为AI评估提供了科学可靠的解决方案。
卡内基梅隆大学研究人员开发了一项革命性技术,通过摄像头、AI模型和微型轮子,让咖啡杯、订书机等日常物品能够自主移动到需要的位置。这种"智能物品"技术避免了传统人形机器人的复杂性和安全隐患,通过蓝牙微控制器和AI视觉系统,物品能够识别用户行为并预测需求。虽然技术已相对成熟,但隐私保护和安全性仍是推广前需要解决的关键问题。
NVIDIA团队开发出Fast-FoundationStereo系统,成功解决了立体视觉AI在速度与精度之间的两难选择。通过分而治之的策略,该系统实现了超过10倍的速度提升同时保持高精度,包括知识蒸馏压缩特征提取、神经架构搜索优化成本过滤,以及结构化剪枝精简视差细化。此外,研究团队还构建了包含140万对真实图像的自动伪标注数据集,为立体视觉的实时应用开辟了新道路。