Nvidia押注开放基础设施迎接智能体AI时代的Nemotron 3模型家族

AI智能体必须能够在大型上下文和长期时间段内进行合作、协调和执行,Nvidia表示,这需要一种新型的基础设施,一种开放的基础设施。

AI智能体必须能够在大型上下文和长期时间段内进行合作、协调和执行,Nvidia表示,这需要一种新型的基础设施,一种开放的基础设施。

该公司表示,它已经找到了答案——推出全新的Nemotron 3开放模型家族。

开发人员和工程师可以使用这些新模型来创建特定领域的AI智能体或应用程序,而无需从头构建基础模型。Nvidia还发布了其大部分训练数据和强化学习(RL)库,供任何希望构建AI智能体的人使用。

"这是Nvidia对DeepSeek扰乱AI市场的回应,"西北AI咨询公司的Wyatt Mayham表示。"他们提供了一个具有企业支持和硬件优化的'业务就绪'开放替代方案。"

Nemotron 3具有Nvidia所称的"突破性混合潜在专家混合(MoE)架构"。该模型有三种规模:

Nano:最小且最具"计算成本效益"的版本,专为定向、高效的任务而设计,如快速信息检索、软件调试、内容摘要和AI助手工作流程。这个300亿参数模型一次激活30亿参数以提升速度,拥有100万Token的上下文窗口,使其能够在多步骤任务中记忆和连接信息。

Super:一个先进的高精度推理模型,拥有大约1000亿参数,每个Token最多激活100亿参数。它专为需要多个协作智能体来处理复杂任务的应用而设计,如深度研究和战略规划,具有低延迟特性。

Ultra:一个大型推理引擎,专为复杂AI应用而设计。它拥有5000亿参数,每个Token最多激活500亿参数。

Nemotron 3 Nano现已在Hugging Face以及其他推理服务提供商和企业AI及数据基础设施平台上提供。它很快将通过Amazon Bedrock在AWS上可用,并将在Google Cloud、CoreWeave、Microsoft Foundry和其他公共基础设施上得到支持。它还作为预构建的Nvidia NIM微服务提供。

Nemotron 3 Super和Ultra预计将在2026年上半年可用。

专家指出,这里的战略定位与API提供商根本不同。

"Nvidia并不试图与OpenAI或Anthropic的托管服务竞争——他们将自己定位为企业构建和拥有自己AI智能体的基础设施层,"Mayham说道。

Info-Tech研究集团的首席研究总监Brian Jackson同意Nemotron模型不是现成的产品。"它们更像是开发人员可以开始使用的预制餐包,"他说,"并在过程中进行所需的修改,以获得他们想要的确切效果。"

到目前为止,Nemotron 3似乎在效率和性能方面表现出令人印象深刻的提升;根据第三方基准测试公司Artificial Analysis的数据,Nano在同等规模的模型中最为高效,并在准确性方面领先。

Nvidia表示,Nano的混合Mamba-Transformer MoE架构将三种架构集成到单一骨干网络中,支持这种效率。Mamba层提供高效的序列建模,Transformer层提供精确推理,MoE路由提供可扩展的计算效率。该公司表示,这种设计相比Nemotron 2 Nano提供了4倍更高的Token吞吐量,同时将推理Token生成减少了高达60%。

"吞吐量是智能体AI的关键指标,"Mayham说。"当你协调数十个并发智能体时,推理成本会急剧上升。更高的吞吐量意味着每个Token的成本更低,实时智能体行为响应更快。"

他指出,推理Token生成减少60%解决了"冗长问题",即思维链(CoT)模型在产生有用输出之前会生成过多的内部推理。"对于构建多智能体系统的开发人员来说,这直接转化为更低的延迟和更少的计算成本。"

即将推出的Nemotron 3 Super,Nvidia表示,在需要多个协作智能体以低延迟实现复杂任务的应用中表现出色,而Nemotron 3 Ultra将作为需要深度研究和战略规划的AI工作流程的高级推理引擎。

Mayham解释说,这些尚未发布的模型具有潜在MoE功能,在专家路由之前将Token投影到较小的潜在维度中,"理论上"能够在相同推理成本下实现4倍的专家数量,因为它减少了GPU之间的通信开销。

Mayham表示,Nemotron 3背后结合Mamba-2层、稀疏Transformer和MoE路由的混合架构"在其组合方面确实新颖",尽管每种技术在其他地方都单独存在。

最终,Nemotron的定价是"有吸引力的",他说;开放权重可以免费下载并在本地运行。他指出,DeepInfra上的第三方API定价从每百万输入Token 0.06美元开始,"明显比GPT-4o便宜"。

为了强调其对开源的承诺,Nvidia正在揭示Nemotron 3的一些内部工作原理,发布具有真实世界遥测数据的安全评估数据集,以及Nemotron 3的预训练、后训练和RL数据集的3万亿Token。

此外,Nvidia正在开源其NeMo Gym和NeMo RL库,它们提供Nemotron 3的训练环境和后训练基础,以及NeMo Evaluator,帮助构建者验证模型安全性和性能。这些现在都在GitHub和Hugging Face上可用。其中,Mayham指出,NeMo Gym可能是此次发布中最"具有战略意义"的部分。

Mayham解释说,预训练教模型预测Token,而不是完成特定领域的任务,传统的人类反馈强化学习(RLHF)无法为复杂的智能体行为扩展。NeMo Gym启用了具有可验证奖励的RL——本质上是任务完成的计算验证,而不是主观的人类评分。也就是说,代码是否通过了测试?数学是否正确?工具是否被正确调用?

这为构建特定领域智能体的开发人员提供了基础设施,让他们在自己的工作流程上训练模型,而无需了解完整的RL训练循环。

Moor Insights & Strategy的副总裁兼首席分析师Jason Andersen解释说:"这个想法是NeMo Gym将加速模型RL作业的设置和执行。重要的区别是NeMo Gym将RL环境与训练本身分离,因此它可以轻松设置和创建多个训练实例(或'健身房')。"

Mayham称这种"前所未有的开放性"是Nemotron 3发布的真正差异化因素。"没有主要竞争对手提供这种程度的完整性,"他说。"对于企业来说,这意味着对定制、本地部署和成本优化的完全控制,这是封闭提供商根本无法匹配的。"

但Mayham指出,在能力方面存在权衡:Claude和GPT-4o在编程基准等专业任务上仍然优于Nemotron 3。然而,Nemotron 3似乎针对的是不同的买家:需要部署灵活性且不希望供应商锁定的企业。

"对企业的价值主张不是原始能力,而是开放权重、训练数据、部署灵活性和Nvidia生态系统集成的结合,这是封闭提供商无法匹配的,"他说。

Q&A

Q1:Nemotron 3有哪些规格型号?各自的特点是什么?

A:Nemotron 3有三个型号:Nano(300亿参数,计算成本最低,适用于信息检索、软件调试等高效任务)、Super(1000亿参数,高精度推理,适用于多智能体协作的复杂任务)、Ultra(5000亿参数,大型推理引擎,专为复杂AI应用设计)。

Q2:Nemotron 3相比传统模型有哪些技术优势?

A:Nemotron 3采用混合Mamba-Transformer MoE架构,相比Nemotron 2 Nano提供4倍更高的Token吞吐量,推理Token生成减少60%。这种设计结合了Mamba层的高效序列建模、Transformer层的精确推理和MoE路由的可扩展计算效率。

Q3:如何获取和使用Nemotron 3?价格如何?

A:Nemotron 3 Nano现已在Hugging Face等平台提供,开放权重免费下载本地运行。第三方API价格从每百万输入Token 0.06美元起,比GPT-4o便宜。Nvidia还开源了训练数据、强化学习库和评估工具供开发者使用。

来源:InfoWorld

0赞

好文章,需要你的鼓励

2025

12/30

08:00

分享

点赞

邮件订阅