在众多关于即将推出的Vera Rubin图形处理器的讨论中,人们很容易忘记英伟达公司不仅仅提供人工智能硬件。
该公司还开发自己的AI模型系列,今天宣布推出迄今为止最强大的模型。英伟达表示,Nemotron Super 3专为大规模运行复杂智能体AI系统而设计,将先进的推理能力与快速处理速度相结合,高效执行需要极高准确性的任务。
Nemotron Super 3是一个基于混合专家架构的1200亿参数开源模型。英伟达称,它结合了三项创新技术,实现了比上一代Nemotron Super模型高达五倍的吞吐量和两倍的准确性。
根据英伟达的说法,Nemotron Super 3旨在解决智能体AI系统面临的两大主要约束,这些系统旨在代表用户自动化复杂任务。第一个是内容爆炸问题。英伟达表示,多智能体工作流通常比标准聊天交互产生多达15倍的Token,因为每次用户与其交互时,模型都需要重新发送包括工具输出和中间推理在内的上下文。
第二个约束被称为"思考税"。复杂智能体必须在完成任务的每个步骤中进行推理,这意味着使用更大的模型是不现实的,因为参数越多,处理成本就越高。大型模型也比小型模型更慢。
为了解决这些问题,Nemotron 3 Super拥有100万Token的上下文窗口,允许它在内存中保留完整的工作流状态并防止"目标漂移",英伟达表示。此外,在推理过程中,其1200亿参数中只有120亿个处于活跃状态,推理是运行训练模型以生成预测或对新数据产生结论的过程。
英伟达表示,Nemotron Super 3在其Blackwell GPU上以NVFP4精度运行,这使其能够减少内存需求,并将推理速度提高多达四倍,相比其上一代Hopper平台所能实现的性能。
Nemotron 3 Super可以从build.nvidia.com、OpenRouter和Hugging Face下载。此外,AI搜索引擎Perplexity公司正在其搜索引擎中提供该模型,并与其"Computer"AI智能体系统一起使用。生成式AI编程应用如CodeRabbit、Factory和Greptile也将该模型添加到其产品线中,而生命科学组织Edison Scientific和Lila Sciences将使用它为数据科学、深度文献研究和分子理解提供智能体支持。
包括Amdocs集团公司、Palantir Technologies公司、Cadence Design Systems公司和达索系统公司在内的企业也在使用Nemotron Super 3来自动化电信、网络安全、半导体设计和制造领域的工作流。最后,戴尔科技公司和慧与企业公司也将通过各自的智能体中心提供该模型的访问。
Nemotron 3 Super的发布正值英伟达年度GTC大会即将召开之际,该大会将于下周3月16日开幕,届时公司预计将披露更多关于其下一代GPU平台等方面的公告。
Q&A
Q1:Nemotron Super 3模型有什么特点?
A:Nemotron Super 3是英伟达推出的1200亿参数开源模型,专为大规模运行复杂智能体AI系统设计。它采用混合专家架构,拥有100万Token上下文窗口,推理时只激活120亿参数,实现了比上一代模型五倍的吞吐量提升和两倍的准确性改进。
Q2:智能体AI系统面临哪些主要技术挑战?
A:智能体AI系统主要面临两大约束:一是内容爆炸问题,多智能体工作流产生的Token数量比标准聊天多达15倍;二是"思考税"问题,复杂智能体需要在每个步骤进行推理,使用大型模型成本高且速度慢。
Q3:哪些公司和应用已经开始使用Nemotron Super 3?
A:目前Perplexity搜索引擎、CodeRabbit等编程应用、Edison Scientific等生命科学组织已开始使用该模型。Amdocs、Palantir、Cadence等企业用它自动化电信和半导体设计工作流,戴尔和慧与也通过智能体中心提供访问服务。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。