英伟达最强开源模型Nemotron 3 Ultra正式发布

Nvidia正式发布了5500亿参数的开源混合专家模型Nemotron 3 Ultra,已上线Hugging Face、ModelScope等平台并提供免费接口。该模型采用潜在混合专家技术与Mamba 2架构,活跃参数压缩至550亿,支持最长100万token上下文窗口。模型针对长周期智能体任务优化,推理速度显著提升,并宣称可节省用户约30%的使用成本。在基准测试中,其性能领先同类美国开源模型,但仍略逊于部分中国模型。

英伟达在Computex大会上预告Nemotron 3 Ultra之后,于近日正式将这款拥有5500亿参数的开源混合专家模型发布至Hugging Face、ModelScope、OpenRouter(提供免费接入端点)以及build.nvidia.com等平台。

核心架构与技术特性

Nemotron 3 Ultra延续了Nemotron 3系列一贯采用的潜在混合专家技术与Mamba 2架构,将实际激活参数量压缩至550亿。该模型支持最高100万Token的上下文窗口,在处理超长文本任务时具备显著优势。

专为长时智能体任务优化

英伟达在发布说明中特别指出,Nemotron 3 Ultra经过专项调优,旨在驱动需要持续规划、工具调用以及复杂任务迭代处理的长时智能体应用。为此,该模型不仅需要具备足够的推理能力,还必须保持较快的推理速度。英伟达强调,此次发布的模型在速度方面相比上一代产品有了大幅提升。

在当前业界普遍关注Token成本的背景下,英伟达还宣称,与同等性能水平的模型相比,Nemotron 3 Ultra可帮助用户节省最多30%的使用成本。

性能表现与竞品对比

在与Kimi-K2.6、Qwen-3.5、GML-5.1等直接竞争对手的横向比较中,Nemotron 3 Ultra是速度最快的模型,同时也是目前性能最强的美国开源权重模型。不过,在大多数基准测试上,该模型仍与上述中国模型存在一定差距,分差虽不大,但确实落后。

在测试模型执行真实世界经济价值任务能力的GDPVal基准上,Nemotron 3 Ultra的NVFP4量化版本(采用英伟达全新量化感知预训练技术)得分为47.9%,而OpenAI的GPT-5.5得分高达84.9%,两者差距明显。

尽管如此,基准测试未必能全面反映模型的真实能力。英伟达指出,该模型能够胜任"自主工作流中的编排调度与最高难度推理任务,包括长时编程会话中的架构决策、跨数百个研究来源的综合分析,以及跨数千个相互依赖约束条件的验证工作"。

训练数据与开放协议

Nemotron 3 Ultra基于精心筛选的14.8万亿Token数据集进行训练,支持包括英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、巴西葡萄牙语和中文在内的12种自然语言,以及43种编程语言。

英伟达已公开发布该模型的权重文件、训练数据集及训练配方,模型采用OpenMDW-1.1许可协议进行授权。

Q&A

Q1:Nemotron 3 Ultra的5500亿参数是否都会被激活?

A:不是。Nemotron 3 Ultra采用混合专家(MoE)架构与潜在混合专家技术,虽然总参数量达到5500亿,但实际运行时只激活其中约550亿参数。这种设计在保持模型整体能力的同时,显著降低了推理计算开销,从而实现更快的推理速度。

Q2:Nemotron 3 Ultra与GPT-5.5相比差距有多大?

A:差距较为明显。在GDPVal基准测试中,Nemotron 3 Ultra的NVFP4量化版本得分为47.9%,而OpenAI的GPT-5.5得分高达84.9%,相差约37个百分点。不过,英伟达强调基准测试无法完整体现模型优势,该模型在长时自主工作流、复杂编程任务和多源研究综合等场景中具备独特能力。

Q3:Nemotron 3 Ultra支持哪些语言?在哪里可以使用?

A:Nemotron 3 Ultra支持12种自然语言,包括英语、法语、西班牙语、意大利语、德语、日语、韩语、印地语、巴西葡萄牙语和中文,同时支持43种编程语言。目前该模型已在Hugging Face、ModelScope、OpenRouter(提供免费端点)以及build.nvidia.com等平台上线,模型权重、数据集和训练配方均已开放,采用OpenMDW-1.1许可协议。

来源:The New Stack

0赞

好文章,需要你的鼓励

2026

06/12

13:50

分享

点赞

邮件订阅