英伟达成为唯一能免费提供AI模型的厂商

英伟达凭借其利润丰厚的硬件业务,成为唯一能够免费提供AI模型的公司。在OpenAI、谷歌等竞争对手纷纷转向闭源模型之际,英伟达加大了对开源Nemotron模型的投入。最新发布的Nemotron 3采用混合Mamba-Transformer架构和专家混合模型,推出Nano、Super和Ultra三个版本,参数规模从30亿到500亿不等,在推理速度和准确性上均有显著提升,展现了英伟达从芯片到软件栈的全栈整合战略。

一个从太空乘彗星来到地球的外星人俯视下来,会发现这里有一家极具影响力和知名度的软件公司叫做英伟达,而这家公司恰巧拥有一个极其复杂且利润丰厚的硬件业务,运营着由其约4万名员工中四分之三创建的专有和开源软件集合。

因此,我们一点也不惊讶的是,随着专有模型制造商——OpenAI、Anthropic和谷歌这些巨头——继续崛起并加剧竞争,不仅Meta Platforms正在考虑转向名为Avocado的封闭模型(毕竟开源的Llama 4模型已成过去),英伟达还在其Nemotron开源模型上加倍投入。

道理很简单。英伟达可以以成本价获得任何规模的AI集群来进行AI训练,而凭借其利润丰厚的AI硬件业务,英伟达是唯一能够免费提供模型并对其AI Enterprise软件栈收取极少费用的公司,该软件栈拥有支持各种AI和HPC模型的库。(每个GPU每年收费4500美元,相对于"Blackwell"系列价格在35000到45000美元之间的GPU加速器来说相当便宜,具体取决于采购量和型号。)

从某种意义上说,这是回归到六十年前IBM System/360大型机早期销售硬件和软件的方式,那次计算机商业化的第二次浪潮拓宽了计算和数据存储的应用范围。那时,你购买一台非常昂贵的大型机系统,它会配备一队穿蓝色西装的技术人员免费帮你编程。多年来,企业开始自己掌控应用软件开发或向第三方购买,而IBM则通过其全球服务巨头将客户服务转变为利润中心。

我们认为,这最终将成为英伟达的发展轨迹,它将追求全栈整合(包括数据中心),以及从芯片到软件栈最高层的垂直整合。英伟达甚至可能最终成为真正意义上的AI基础设施提供商。(基础设施是比云更好的词,云是一个模糊的术语,而且是故意模糊的。)

英伟达在开源AI模型方面并不陌生,显然它一直参与运行几乎所有创建过的开源AI模型,以及那些已成为家喻户晓的封闭模型,如谷歌Gemini、Anthropic Claude和OpenAI GPT。在Nemotron 3发布前的预先简报中,英伟达企业生成式AI软件副总裁Kari Briski表示,在过去两年半中,大约有3.5亿次开源AI框架和模型被下载,Hugging Face仓库拥有超过280万个开源模型,涵盖各种变体以创建特定用例的模型,约60%的公司正在使用开源AI模型和工具。Briski补充说,2025年英伟达是Hugging Face上开源内容的最大贡献者,发布了650个开源模型和250个开源数据集。

英伟达从2019年宣布的自研transformer模型Megatron-LM开始起步。Megatron-LM可以针对80亿参数进行训练,并在512个GPU加速器上进行(使用8路GPU节点进行模型并行,64个这样的节点进行数据并行)。2021年,通过与微软的合作,Megatron扩展到5300亿参数,推出Megatron-Turing NLG。神经模块(简称NeMo)工具包与最初的Megatron-LM模型同时发布,Nemotron模型就是使用该工具包及其相关库构建的。

最初的Nemotron模型被称为Nemotron-4,这让我们都感到困惑,它们于2024年6月发布,涵盖3400亿参数。通过Nemotron 1模型,英伟达将Llama 3.1基础模型与Nemotron推理技术结合,创建了Llama Nemotron,涵盖80亿、490亿、700亿和2350亿参数规模。

今年早些时候发布的Nemotron 2 Nano拥有90亿和120亿参数两个变体,英伟达采用了谷歌在2017年6月开创并在2018年10月通过其BERT模型实现的transformer方法,并将其与卡内基梅隆大学和普林斯顿大学研究人员开发的Mamba选择性状态空间方法交织在一起。前者擅长从大量数据中提取特征和依赖关系,后者非常擅长聚焦于较小的数据子集及其依赖关系。

本周发布的Nemotron 3,英伟达创建了一个混合专家(MoE)架构,旨在驱动多智能体系统,这建立在混合Mamba-Transformer架构之上。Briski表示,结果是通过混合架构提高了推理效率。

"混合Mamba-Transformer架构运行速度快几倍,内存占用更少,因为它避免了为每个Token生成庞大的注意力映射和键值缓存,"Briski解释道。"因此该架构真正减少了内存占用,这使你可以拥有更多专家。我们将在Super和Ultra版本中引入一项名为潜在专家混合的突破。模型中的所有这些专家共享一个公共核心,只保留一小部分私有内容。这就像厨师共享一个大厨房,但他们可以使用自己的香料架。因此,通过这种潜在MoE,Super和Ultra将获得更高的内存效率。"

Nemotron 3系列目前有三个成员,Briski在那里提到了其中两个的名称。

Nemotron 3系列很可能随着时间推移扩展到更大和更小的模型。与其他MoE模型一样,模型训练有一个总参数量,然后在微调或进行推理时可以激活较小的参数子集。Nemotron 3 Nano拥有300亿参数,任何时候激活30亿,专门设计为可以在单个英伟达L40S GPU推理加速器上运行。Super变体有1000亿参数,一次最多激活100亿,Ultra版本有5000亿参数,任何时候激活500亿。

Briski表示,Nemotron 2 Nano和Nemotron 3模型之间的模型微调方式不同。Nemotron 2 Nano有大量监督学习——意味着人们纠正模型的输出并将其反馈到模型中——以及少量强化学习——模型在使用过程中自我学习,但Nemotron 3有大量强化学习。Nemotron 3模型严重依赖强化学习,还增加了最多100万Token的上下文窗口。

英伟达有一篇技术博客详细解释了Nemotron 3模型的一些细节,但要点是Mamba在捕捉长程依赖关系的同时减少了内存使用,transformer层具有处理复杂规划和推理的注意力算法,MoE方法允许模型实际上很大但仅在必要时激活(这是谷歌在BERT之后的PaLM模型中发明的方法)。

Super和Ultra版本中的潜在MoE功能允许在模型层之间添加中间表示层,在执行Token处理时可以共享,从而允许调用4倍数量的专家,同时提供相同的推理性能。更多专家意味着更好的答案和更高的智能。Nemotron 3具有多Token预测功能,这是AI模型的一种推测执行,Super和Ultra变体在英伟达的NVFP4 4位数据精度下进行了预训练,以提高推理的有效吞吐量。这项训练是在25万亿Token的预训练数据集上完成的。(尚不清楚英伟达是否向所有人开放此数据集——或者它是否能够这样做。)

那么Nemotron 3的表现如何?让我们看看Artificial Analysis,这是目前的AI基准测试。到目前为止,只有Nemotron 3 Nano 30B/3B可用,以下是它在推理工作负载的每秒输出Token数方面的表现:

与Nemotron 2模型相比,这是一个巨大的性能提升。不激活整个模型显然对MoE有帮助,这在某种程度上是设计规范。

以下是Nemotron 3 Nano 30B/3B在模型准确性(智能,Y轴)与Token吞吐量(X轴)对比时的表现:

你希望在这个图表上向右上方移动。

最后,以下是Nemotron 3 Nano与开放性指数(你的模型有多开放)的比较——在Y轴上绘制开放性指数,在X轴上绘制智能(答案的正确性):

有趣的是,Nemotron 3模型是否能从英伟达获得技术支持订阅,无论是作为AI Enterprise堆栈的一部分还是单独提供。如果英伟达提供支持,它不必收费很多,只需足以覆盖其模型开发成本,以削弱越来越封闭的AI模型制造商。

Q&A

Q1:为什么英伟达能够免费提供AI模型?

A:英伟达可以以成本价获得任何规模的AI集群来进行AI训练,而凭借其利润丰厚的AI硬件业务,英伟达是唯一能够免费提供模型并对其AI Enterprise软件栈收取极少费用的公司。每个GPU每年仅收费4500美元,相对于价格在35000到45000美元之间的GPU加速器来说相当便宜。这使得英伟达能够通过硬件利润补贴模型开发成本。

Q2:Nemotron 3模型有哪些版本和参数规模?

A:Nemotron 3系列目前有三个成员。Nano版本拥有300亿参数,任何时候激活30亿,专门设计为可以在单个英伟达L40S GPU推理加速器上运行。Super变体有1000亿参数,一次最多激活100亿。Ultra版本有5000亿参数,任何时候激活500亿。这些版本采用混合专家架构,只在需要时激活部分参数以提高效率。

Q3:Nemotron 3模型采用了哪些技术创新?

A:Nemotron 3采用了混合Mamba-Transformer架构,Mamba在捕捉长程依赖关系的同时减少内存使用,transformer层处理复杂规划和推理。它采用混合专家架构,模型实际上很大但仅在必要时激活。Super和Ultra版本引入了潜在专家混合技术,允许所有专家共享公共核心,从而实现更高的内存效率。模型严重依赖强化学习,并提供最多100万Token的上下文窗口。

来源:The Next Platform

0赞

好文章,需要你的鼓励

2025

12/18

08:19

分享

点赞

邮件订阅