英伟达发布Nemotron Super 3智能体模型,吞吐量提升五倍

英伟达发布了迄今为止最强大的AI模型Nemotron Super 3,专为大规模智能代理系统设计。该模型采用1200亿参数的混合专家架构,具备先进推理能力和快速处理速度。相比前代产品,吞吐量提升五倍,准确性翻倍。模型具有100万token上下文窗口,推理时仅激活120亿参数,在Blackwell GPU上运行可将推理速度提升四倍。

在众多关于即将推出的Vera Rubin图形处理器的讨论中,人们很容易忘记英伟达公司不仅仅提供人工智能硬件。

该公司还开发自己的AI模型系列,今天宣布推出迄今为止最强大的模型。英伟达表示,Nemotron Super 3专为大规模运行复杂智能体AI系统而设计,将先进的推理能力与快速处理速度相结合,高效执行需要极高准确性的任务。

Nemotron Super 3是一个基于混合专家架构的1200亿参数开源模型。英伟达称,它结合了三项创新技术,实现了比上一代Nemotron Super模型高达五倍的吞吐量和两倍的准确性。

根据英伟达的说法,Nemotron Super 3旨在解决智能体AI系统面临的两大主要约束,这些系统旨在代表用户自动化复杂任务。第一个是内容爆炸问题。英伟达表示,多智能体工作流通常比标准聊天交互产生多达15倍的Token,因为每次用户与其交互时,模型都需要重新发送包括工具输出和中间推理在内的上下文。

第二个约束被称为"思考税"。复杂智能体必须在完成任务的每个步骤中进行推理,这意味着使用更大的模型是不现实的,因为参数越多,处理成本就越高。大型模型也比小型模型更慢。

为了解决这些问题,Nemotron 3 Super拥有100万Token的上下文窗口,允许它在内存中保留完整的工作流状态并防止"目标漂移",英伟达表示。此外,在推理过程中,其1200亿参数中只有120亿个处于活跃状态,推理是运行训练模型以生成预测或对新数据产生结论的过程。

英伟达表示,Nemotron Super 3在其Blackwell GPU上以NVFP4精度运行,这使其能够减少内存需求,并将推理速度提高多达四倍,相比其上一代Hopper平台所能实现的性能。

Nemotron 3 Super可以从build.nvidia.com、OpenRouter和Hugging Face下载。此外,AI搜索引擎Perplexity公司正在其搜索引擎中提供该模型,并与其"Computer"AI智能体系统一起使用。生成式AI编程应用如CodeRabbit、Factory和Greptile也将该模型添加到其产品线中,而生命科学组织Edison Scientific和Lila Sciences将使用它为数据科学、深度文献研究和分子理解提供智能体支持。

包括Amdocs集团公司、Palantir Technologies公司、Cadence Design Systems公司和达索系统公司在内的企业也在使用Nemotron Super 3来自动化电信、网络安全、半导体设计和制造领域的工作流。最后,戴尔科技公司和慧与企业公司也将通过各自的智能体中心提供该模型的访问。

Nemotron 3 Super的发布正值英伟达年度GTC大会即将召开之际,该大会将于下周3月16日开幕,届时公司预计将披露更多关于其下一代GPU平台等方面的公告。

Q&A

Q1:Nemotron Super 3模型有什么特点?

A:Nemotron Super 3是英伟达推出的1200亿参数开源模型,专为大规模运行复杂智能体AI系统设计。它采用混合专家架构,拥有100万Token上下文窗口,推理时只激活120亿参数,实现了比上一代模型五倍的吞吐量提升和两倍的准确性改进。

Q2:智能体AI系统面临哪些主要技术挑战?

A:智能体AI系统主要面临两大约束:一是内容爆炸问题,多智能体工作流产生的Token数量比标准聊天多达15倍;二是"思考税"问题,复杂智能体需要在每个步骤进行推理,使用大型模型成本高且速度慢。

Q3:哪些公司和应用已经开始使用Nemotron Super 3?

A:目前Perplexity搜索引擎、CodeRabbit等编程应用、Edison Scientific等生命科学组织已开始使用该模型。Amdocs、Palantir、Cadence等企业用它自动化电信和半导体设计工作流,戴尔和慧与也通过智能体中心提供访问服务。

来源:SiliconANGLE

0赞

好文章,需要你的鼓励

2026

03/12

17:36

分享

点赞

邮件订阅