英伟达是唯一能负担免费提供AI模型的厂商

英伟达凭借其庞大的硬件业务利润,成为唯一能够承担免费提供AI模型成本的公司。随着OpenAI、Anthropic等专有模型制造商竞争加剧,Meta考虑转向封闭模型,英伟达却加倍投入开源Nemotron模型。公司可以成本价获得任何规模的AI集群进行训练,其AI Enterprise软件栈年费仅4500美元。新发布的Nemotron 3采用混合专家架构,结合Mamba-Transformer技术,显著提升推理效率和内存使用率。

如果有外星人乘坐彗星从太空飞来俯视地球,会看到这样一个现象:有一家极具影响力和知名度的软件公司叫英伟达,它恰好拥有一个极其复杂且盈利丰厚的硬件业务,运行着大约四万名员工中约四分之三人员负责的专有和开源软件集合。

因此,我们一点也不意外地看到,随着专有模型制造商——OpenAI、Anthropic和谷歌是其中的大玩家——继续崛起并加剧竞争,不仅Meta平台正在考虑转向名为Avocado的封闭模型(开源的Llama 4模型终究要完蛋),英伟达也在加倍投入其Nemotron开源模型。

道理很简单。英伟达可以以成本价获得进行AI训练所需的任何规模的AI集群,鉴于其AI硬件业务的巨额利润,英伟达是唯一能够负担免费提供模型并对其AI Enterprise软件堆栈收费很少的公司,该软件堆栈拥有支持各种AI和高性能计算模型的库。(每个GPU每年4500美元,相对于"Blackwell"系列中根据批量和型号可能花费3.5万到4.5万美元的GPU加速器来说是相对便宜的。)

从某种意义上说,这是回到了IBM System/360大型机早期硬件和软件销售方式,六十年前的第二波计算机商业化浪潮中,这种方式扩大了计算和数据存储的使用。那时,你购买一个非常昂贵的大型机系统,它配备一队穿蓝色西装的技术人员,会免费帮助你编程。多年来,公司开始控制开发自己的应用软件或向第三方寻求软件,IBM蓝色巨人通过其全球服务巨头将客户服务转变为盈利中心。

我们认为,这最终将是英伟达的发展轨迹,因为它追求全堆栈集成(包括数据中心),以及从芯片到软件堆栈最高层的垂直集成。英伟达甚至可能最终成为自己的AI公用事业。(公用事业是比云更好的词汇,云是一个模糊的术语,而且是故意模糊的。)

英伟达在开源AI模型方面并不是新手,显然一直参与运行几乎所有创建的开源AI模型,以及已成为家喻户晓名字的封闭模型,如谷歌Gemini、Anthropic Claude和OpenAI GPT。在Nemotron 3发布前的简报会上,英伟达企业生成式AI软件副总裁Kari Briski表示,在过去两年半中,大约下载了3.5亿个开源AI框架和模型,Hugging Face存储库拥有超过280万个开放模型,涵盖各种变体以为特定用例创建模型,约60%的公司正在使用开源AI模型和工具。Briski补充说,2025年英伟达是Hugging Face上开源内容的最大贡献者,发布了650个开放模型和250个开放数据集。

英伟达通过自主开发的Transformer模型Megatron-LM起步,该模型于2019年发布。Megatron-LM可以训练80亿个参数,并在512个GPU加速器上进行训练(使用8路GPU节点进行模型并行,64个这样的节点进行数据并行)。2021年,通过与微软的合作,Megatron扩展到5300亿个参数,形成了Megatron-Turing NLG。神经模块工具包(简称NeMo)与原始Megatron-LM模型同时发布,Nemotron模型就是使用这个工具包及其相关库构建的。

最初的Nemotron模型被称为Nemotron-4,这让我们都感到困惑,它们于2024年6月发布,跨越3400亿个参数。通过Nemotron 1模型,英伟达将Llama 3.1基础模型与Nemotron推理技术结合,创建了Llama Nemotron,跨越80亿、490亿、700亿和2350亿参数规模。

今年早些时候发布的Nemotron 2 Nano具有90亿和120亿参数的变体,英伟达采用了谷歌在2017年6月率先提出并在2018年10月通过其BERT模型实现的Transformer方法,并将其与卡内基梅隆大学和普林斯顿大学研究人员开发的Mamba选择性状态空间方法交织在一起。前者擅长从大量数据中提取特征和依赖关系,后者非常善于聚焦于较小的数据子集及其依赖关系。

本周发布的Nemotron 3,英伟达正在创建一个混合专家(MoE)架构,旨在驱动基于这种混合Mamba-Transformer架构的多智能体系统。Briski说,结果是由于混合架构而提高了推理效率。

"混合Mamba-Transformer架构运行速度快几倍,内存使用更少,因为它避免了每个Token的巨大注意力图和键值缓存,"Briski解释说。"所以这种架构真正减少了内存占用,让你可以拥有更多专家。我们将在Super和Ultra版本中引入一个叫做潜在专家混合的突破。模型中的所有这些专家共享一个公共核心,只保留一小部分私有。这就像厨师共享一个大厨房,但他们可以使用自己的调料架。所以你将通过这种潜在MoE在Super和Ultra版本中获得更高的内存效率。"

Nemotron 3家族目前有三个成员,其中两个Briski在那里提到了名字。

Nemotron 3家族很可能随着时间推移扩展到更大和更小的模型。像其他MoE模型一样,有一个模型训练的参数总量,然后有一个较小的参数子集可以在微调或进行推理时激活。Nemotron 3 Nano有300亿个参数,任何时候激活30亿个,专门设计为可以在单个英伟达L40S GPU推理加速器上运行。Super变体有1000亿个参数,一次最多激活100亿个,Ultra版本有5000亿个参数,任何给定时间激活500亿个。

Briski表示,模型的微调在Nemotron 2 Nano和Nemotron 3模型之间是不同的。Nemotron 2 Nano有大量监督学习——意味着人们纠正模型的输出并将其反馈给模型——以及一点强化学习——模型在使用时自我学习,但Nemotron 3有大量强化学习。Nemotron 3模型严重依赖强化学习,还添加了高达100万Token的上下文窗口。

英伟达有一个技术博客解释了Nemotron 3模型的一些要点,但要点是Mamba在捕获长距离依赖的同时减少了内存使用,Transformer层具有处理复杂规划和推理的注意力算法,MoE方法允许模型有效地变大但只在必要时激活(这是谷歌在BERT之后进入该领域的PaLM模型发明的方法)。

即将在Super和Ultra版本中出现的潜在MoE特性允许在模型层之间添加中间表示层,可以在执行Token处理时共享,这允许调用4倍数量的专家,同时提供相同的推理性能。更多专家意味着更好的答案和更高的智能。Nemotron 3具有多Token预测,这是AI模型的一种推测执行,Super和Ultra变体已在英伟达的NVFP4 4位数据精度中进行预训练,以提高推理的有效吞吐量。这种训练是在25万亿Token预训练数据集上完成的。(不清楚英伟达是否向所有人开放这个数据集——或者它是否能够做到这一点。)

那么Nemotron 3表现如何?让我们看看Artificial Analysis,这是目前的AI基准。到目前为止,只有Nemotron 3 Nano 30B/3B可用,以下是它在推理工作负载的每秒输出Token方面的评级:

与Nemotron 2模型相比,这是一个巨大的性能提升。不激活整个模型显然对MoE有帮助,这有点像设计规范。

以下是当您绘制模型准确性(智能,Y轴)与Token吞吐量(X轴)时Nemotron 3 Nano 30B/3B的比较:

在这个图表上,您希望位于右上方。

最后,以下是Nemotron 3 Nano与开放性指数的比较——您的模型有多开放——在Y轴上绘制,智能(答案正确性)在X轴上:

有趣的是,看看Nemotron 3模型是否能够从英伟达获得技术支持订阅,无论是作为AI Enterprise堆栈的一部分还是单独提供。如果英伟达提供支持,它不必收费很多,只需足够覆盖其模型开发成本,以削弱日益封闭的AI模型制造商。

Q&A

Q1:Nemotron 3相比之前版本有什么主要改进?

A:Nemotron 3采用了混合Mamba-Transformer架构,结合了专家混合(MoE)设计。这种架构运行速度比之前版本快几倍,内存使用更少,因为避免了每个Token的巨大注意力图和键值缓存。同时,Nemotron 3严重依赖强化学习,并支持高达100万Token的上下文窗口,显著提高了推理效率。

Q2:Nemotron 3家族包含哪些不同规模的模型?

A:Nemotron 3家族目前有三个成员:Nano版本有300亿参数,任何时候激活30亿个,可在单个英伟达L40S GPU上运行;Super变体有1000亿参数,一次最多激活100亿个;Ultra版本有5000亿参数,任何时间激活500亿个。这种专家混合架构让模型可以很大但只在必要时激活相应部分。

Q3:英伟达为什么能负担免费提供AI模型?

A:英伟达拥有极其盈利的AI硬件业务,可以以成本价获得任何规模的AI训练集群。相比其他公司需要购买昂贵的GPU进行训练,英伟达的硬件优势让它成为唯一能够负担免费提供模型的厂商。它只需对AI Enterprise软件堆栈收取相对较少的费用(每个GPU每年4500美元),就能覆盖开发成本并削弱封闭模型竞争对手。

来源:The Next Platform

0赞

好文章,需要你的鼓励

2025

12/17

14:09

分享

点赞

邮件订阅