英伟达发布全新小型开源模型Nemotron-Nano-9B-v2,支持推理开关控制

英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。

小型模型正迎来高光时刻。继MIT分拆公司Liquid AI发布可在智能手表上运行的AI视觉模型,以及谷歌推出可在智能手机上运行的模型之后,英伟达今日也加入这一潮流,发布了自己的小型语言模型Nemotron-Nano-9B-V2。该模型在同类产品的选定基准测试中取得最高性能,并具备让用户开启或关闭AI"推理"功能的能力,即在输出答案前进行自我检查。

虽然90亿参数比VentureBeat最近报道的一些数百万参数小型模型要大,但英伟达指出,这相比原始的120亿参数已经大幅缩减,设计可在单个英伟达A10 GPU上运行。

正如英伟达AI模型后训练总监Oleksii Kuchiaev在X平台回应我的提问时所说:"120亿参数模型被裁剪至90亿参数,专门适配A10,这是部署中的热门GPU选择。这也是一个混合模型,允许处理更大的批次大小,比同等规模的Transformer模型快6倍。"

作为背景,许多主流大语言模型都在700多亿参数范围内(参数指的是控制模型行为的内部设置,通常参数越多表示模型越大、能力越强,但计算密集度也越高)。

该模型支持多种语言,包括英语、德语、西班牙语、法语、意大利语、日语,以及在扩展描述中的韩语、葡萄牙语、俄语和中文。它适用于指令跟随和代码生成。

Nemotron-Nano-9B-V2及其预训练数据集现已在Hugging Face和该公司的模型目录中提供。

Transformer与Mamba架构的融合

该模型基于Nemotron-H,这是一系列混合Mamba-Transformer模型,构成了该公司最新产品的基础。

虽然大多数流行的大语言模型都是纯"Transformer"模型,完全依赖注意力层,但随着序列长度增长,它们在内存和计算方面可能变得昂贵。

相反,Nemotron-H模型和其他使用由卡内基梅隆大学和普林斯顿大学研究人员开发的Mamba架构的模型,还融入了选择性状态空间模型(SSMs),通过维持状态来处理非常长的输入输出信息序列。

这些层与序列长度呈线性扩展,可以处理比标准自注意力更长的上下文,而不会产生相同的内存和计算开销。

混合Mamba-Transformer通过用线性时间状态空间层替换大部分注意力机制来降低这些成本,在长上下文中实现高达2-3倍的吞吐量提升,同时保持相当的准确性。

除英伟达外,Ai2等其他AI实验室也发布了基于Mamba架构的模型。

通过语言控制推理开关

Nemotron-Nano-9B-v2定位为统一的纯文本聊天和推理模型,从零开始训练。

系统默认在提供最终答案前生成推理轨迹,但用户可以通过简单的控制Token(如/think或/no_think)来切换这种行为。

该模型还引入了运行时"思考预算"管理,允许开发者在模型完成响应前限制用于内部推理的Token数量。

这一机制旨在平衡准确性与延迟,特别是在客户支持或自主智能体等应用中。

基准测试显示优异表现

评估结果显示,与其他开源小规模模型相比具有竞争性的准确性。在使用NeMo-Skills套件的"推理开启"模式测试中,Nemotron-Nano-9B-v2在AIME25上达到72.1%,MATH500上达到97.8%,GPQA上达到64.0%,LiveCodeBench上达到71.1%。

指令跟随和长上下文基准测试的分数也有报告:IFEval上90.3%,RULER 128K测试上78.9%,在BFCL v3和HLE基准测试上也有较小但可测量的提升。

总体而言,Nano-9B-v2显示出比Qwen3-8B更高的准确性,后者是常见的比较基准。

英伟达用准确性-预算曲线来说明这些结果,显示随着推理Token配额增加,性能如何扩展。该公司建议,仔细的预算控制可以帮助开发者在生产用例中优化质量和延迟。

基于合成数据集训练

Nano模型和Nemotron-H系列都依赖于策划的、网络来源的和合成训练数据的混合。

语料库包括通用文本、代码、数学、科学、法律和金融文档,以及对齐式问答数据集。

英伟达确认使用由其他大型模型生成的合成推理轨迹来增强在复杂基准测试上的性能。

**许可和商用**

Nano-9B-v2模型在英伟达开放模型许可协议下发布,最后更新于2025年6月。

该许可设计为宽松且企业友好。英伟达明确表示模型可以立即商用,开发者可以自由创建和分发衍生模型。

重要的是,英伟达不声称拥有模型生成的任何输出的所有权,将责任和权利留给使用它的开发者或组织。

对于企业开发者来说,这意味着模型可以立即投入生产,无需协商单独的商业许可或支付与使用阈值、收入水平或用户数量相关的费用。没有要求公司达到一定规模后需要付费许可的条款,这与其他提供商使用的一些分层开放许可不同。

尽管如此,协议确实包含企业必须遵守的几个条件:

安全护栏:用户不能绕过或禁用内置安全机制(称为"护栏"),除非实施适合其部署的可比替代方案。

再分发:任何模型或衍生品的再分发都必须包含英伟达开放模型许可文本和归属声明。

合规性:用户必须遵守贸易法规和限制(如美国出口法)。

可信AI条款:使用必须符合英伟达可信AI指南,涵盖负责任的部署和伦理考虑。

诉讼条款:如果用户对另一实体发起版权或专利诉讼,声称模型侵权,许可将自动终止。

这些条件专注于合法和负责任的使用,而不是商业规模。企业无需仅仅因为构建产品、将其货币化或扩大用户群而寻求额外许可或向英伟达支付版税。相反,他们必须确保部署实践尊重安全、归属和合规义务。

市场定位

通过Nemotron-Nano-9B-v2,英伟达瞄准需要在较小规模下平衡推理能力和部署效率的开发者。

运行时预算控制和推理切换功能旨在为系统构建者提供更多灵活性来管理准确性与响应速度。

它们在Hugging Face和英伟达模型目录上的发布表明,它们旨在为实验和集成提供广泛可访问性。

英伟达发布Nemotron-Nano-9B-v2展示了对语言模型效率和可控推理的持续关注。

通过结合混合架构与新的压缩和训练技术,该公司为开发者提供了寻求在降低成本和延迟的同时保持准确性的工具。

Q&A

Q1:Nemotron-Nano-9B-v2有什么特别的功能?

A:Nemotron-Nano-9B-v2最特别的功能是支持推理开关控制,用户可以通过简单的控制Token(如/think或/no_think)来开启或关闭AI推理功能。此外,还具备运行时"思考预算"管理,允许开发者限制用于内部推理的Token数量,在准确性与延迟之间取得平衡。

Q2:这个90亿参数的模型相比其他模型有什么优势?

A:虽然90亿参数比一些小型模型大,但相比原始120亿参数已大幅缩减,专门设计可在单个英伟达A10 GPU上运行。它采用混合Mamba-Transformer架构,比同等规模的纯Transformer模型快6倍,在长上下文处理中实现2-3倍吞吐量提升。

Q3:Nemotron-Nano-9B-v2的商业使用条件如何?

A:该模型在英伟达开放模型许可协议下发布,对商业使用非常友好。企业可以立即投入生产使用,无需额外付费或协商商业许可。英伟达不声称拥有模型输出的所有权,但用户需要遵守安全护栏、归属声明、合规性和可信AI指南等条件。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

08/19

17:07

分享

点赞

邮件订阅