在上个月的 GPU 技术大会上,Nvidia 打破常规,改变了对 GPU 的定义标准。
CEO Jensen Huang 在 GTC 大会上解释说:"我之前犯了一个错误:Blackwell 实际上是在一个 Blackwell 芯片中集成了两个 GPU。我们之前把它称为一个 GPU 是错误的,因为这会搞乱所有的 NVLink 命名规则。"
然而,Nvidia 从计算 SXM 模块转向计算 GPU 芯片的这一转变,不仅仅是为了简化 NVLink 型号和命名规则。这可能会使 Nvidia 能够收取的 AI Enterprise 许可费用翻倍。
Nvidia 的 AI Enterprise 套件(包含多个 AI 框架,以及对其推理微服务 NIMs 的访问权限)每个 GPU 每年收费 4,500 美元,或在云端每小时 1 美元。这意味着配备八个模块的 Nvidia HGX B200(每个模块一个 Blackwell GPU)每年需要支付 36,000 美元,或在云端每小时 8 美元。
但在新的 HGX B300 NVL16 中,Nvidia 现在将每个芯片都计为一个 GPU。由于系统仍有八个模块,每个模块包含两个芯片,总数达到了 16 个 GPU。这意味着,如果 Nvidia 的 AI Enterprise 订阅定价保持不变,其最新的 HGX 设备的费用将翻倍。
这种命名规则的改变与去年的 Blackwell 系统有所不同。在我们的 Blackwell 发布报道中,Nvidia 反对我们将 Blackwell 称为"芯片组"架构(在一个处理器封装中链接多个独立芯片或芯片组),而是主张它是"一个作为统一单一 GPU 运行的双光刻限制芯片架构"。
相比去年的 B200,最新的 B300 GPU 并没有强大太多。简单回顾一下,HGX B300 的内存容量从 B200 的 1.5TB 提升到 2.3TB,增加了约 1.5 倍,而 4 位浮点 (FP4) 性能提升了约 50%,每系统达到略高于 105 个密集 petaFLOPS。然而,性能提升仅限于能够利用 FP4 性能的工作负载。在更高精度下,B300 相比旧系统并无浮点性能优势。
令人困惑的是,这种变化只适用于 Nvidia 的风冷 B300 设备,而不适用于更强大的 GB300 NVL72 系统,后者仍将封装计为 GPU。
那么这是为什么呢?根据 Nvidia 超大规模和 HPC 部门副总裁兼总经理 Ian Buck 的说法,这是出于技术原因。
主要区别在于 HGX 机箱上提供的 B300 封装缺少了前代 Blackwell 加速器中的芯片间互连。这意味着两个芯片实际上是共享一个封装的两个独立的 144GB GPU。Buck 解释说,这使 Nvidia 能够实现更好的功耗和散热效果。但这也带来了一些缺点。由于两个芯片之间没有 C2C 互连,如果一个芯片要访问另一个芯片的内存,就必须离开封装,通过 NVLink 交换机,然后进行 U 型转向。
相比之下,GB300 保留了 C2C 接口,避免了封装外的内存绕行。由于两个芯片可以直接通信和共享内存,它们被视为一个统一的 GPU——至少在 Nvidia 的软件和许可方面是这样。
然而,这种技术例外不会持续太久。随着 Nvidia Vera Rubin 超级芯片的推出,它将采用 B300 式的命名规则,开始将单个芯片计为 GPU,因此有了 NVL144 的命名。
这也解释了为什么 Nvidia 的 Vera Rubin Ultra 平台(计划于 2027 年末推出)能够声称每机架拥有 576 个 GPU。正如我们之前探讨的,它实际上只有 144 个模块(在 Blackwell Ultra 之前我们会认为是一个 GPU),每个模块包含四个芯片。
如果要猜测的话,我们认为在 Nvidia 发布 Blackwell 的一年后,这家 GPU 巨头意识到他们错失了订阅软件收入。我们之所以这样说,是因为当我们询问 Nvidia 这种命名变化将如何影响 AI Enterprise 许可时,他们表示定价细节尚未确定。
"B300 的定价细节仍在敲定中,目前除了 GTC 主题演讲中展示的内容外,暂时没有关于 Rubin 的更多细节可以分享,"一位发言人向 El Reg 表示,并明确这也包括 AI Enterprise 的定价。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。