英伟达Vera-Rubin平台推出前六月已淘汰现有AI硬件

英伟达在2026年消费电子展上发布Vera-Rubin NVL72机架级系统,该系统配备72个GPU插槽和36个CPU插槽,相比前代Grace-Blackwell NVL72系统,在专家混合AI模型推理成本降低10倍,训练所需GPU数量减少4倍。新系统采用Rubin GPU和Vera Arm CPU,HBM4内存带宽达22TB/秒,较前代提升2.75倍。预计2026年下半年开始量产,标志着AI硬件性能的重大突破。

英伟达AI系统的年度改进节奏对于在正确时间购买最新设备的客户来说是件好事。但英伟达机架级AI系统的快速改进以及大规模扩展网络的发展速度也意味着,任何时候都会有一部分客户感到后悔,希望自己当初等一等再买。

我们意识到这可以说是第一世界的问题,当获得任何GPU或XPU算力本身就是真正的问题时,这个问题不值得抱怨。

但今天,当世界观看英伟达联合创始人兼首席执行官黄仁勋在拉斯维加斯2026年消费电子展上的主题演讲时,不少高管无疑会在看到未来"Vera" Arm服务器CPU和"Rubin"GPU加速器的性能规格,以及与之配套的扩展NVLink内存架构和扩展Spectrum以太网互连,以及新的网卡和DPU时想"早知道就等等了",这些组件共同创造了一个在处理或输出Token方面大幅改进的机架级系统。

更具体地说,英伟达高层表示,Vera-Rubin NVL72机架级系统(顾名思义有72个GPU插槽,还有36个CPU插槽以及连接它们的NVSwitch架构)与上一代Grace-Blackwell NVL72系统相比,为专家混合(MoE)AI模型提供了每Token推理成本10倍的降低,训练这些模型所需的GPU数量减少了4倍(但请注意,可能不是成本降低4倍)。

相比Blackwell更平稳的过渡

英伟达在2016年4月推出了其首台自主服务器DGX-1系统,基于"Pascal" P100 GPU加速器和将系统中八个GPU连接在一起的NVLink端口混合立方网格。按现代标准来看,这是一台相当简单的机器,值得注意的是,第一台机器被送给了OpenAI首席执行官萨姆·奥特曼。

两年后,基于"Volta" V100 GPU的DGX-2平台问世,还有一个叫做NVSwitch的奇特小设备,这是英伟达研究部门的一个研究项目。通过DGX-2,英伟达初次尝到了复杂系统组件开发和集成的滋味,英伟达没有让其他公司按规格制造,而是自己制造GPU板、交换板和两者之间的平面互连,以保持质量控制。"Ampere" A100和"Hopper" H100 GPU采用了类似设计,增强了浮点计算能力和支持带宽,但在2024年3月推出的"Blackwell" GB200 NVL72设计中,英伟达转向机架级规模,将72个GPU插槽、36个CPU插槽和18个NVSwitch托盘塞进"节点"中,创建了一个复杂、高温且制造具有挑战性的共享内存系统,同时需求量很大,供应紧张。

最初的Blackwell机架级机器存在问题,迫使GPU和机架在多个方面重新设计,这当然意味着出货延迟——从2024年底延迟到2025年初才有合理的出货量。但当你正在构建世界上最复杂的服务器节点,在集成和热管理方面突破极限时,无论工程师多么谨慎和周到,你都必须预期会有这样那样的问题。

这次,Vera-Rubin VR200 NVL72机器的一切都按计划进行。在黄仁勋主题演讲前与记者和分析师的预先简报中,HPC和AI工厂解决方案高级总监Dion Harris说,Vera-Rubin NVL72平台核心的六个芯片都已从台积电代工厂回来,正在启动并发送给关键合作伙伴,可以在2026年下半年开始批量生产。

我们强烈怀疑英伟达将在3月圣何塞举行的2026年GPU技术大会上公布VR200 NVL72平台的更多细节——这些是按GPU插槽计算而不是小芯片,所以这台机器也是英伟达在去年的路线图中之前称为VR200 NVL144系统的机器。但现在,我们将分享在CES上公布的有关这些机器的信息。

Harris在预简报中展示的最重要图表显示了Vera-Rubin系统设计重点关注提高HBM堆栈内存带宽的原因,以便那些昂贵的Rubin GPU能够比Hopper和Blackwell世代更好地供给数据。

在这个专家混合时代,模型必须创建和分析更多Token来得出更好的答案,如果你想及时做到这一点,需要大量带宽来处理不同专家相互咨询时的所有通信。

因此,我们认为新Vera-Rubin机器中最重要的指标是Rubin GPU中八个HBM4内存堆栈(推测是R200,但英伟达尚未说明其名称)的总带宽为22 TB/秒,比Blackwell GPU中使用的八个HBM3E堆栈的8 TB/秒高2.75倍。这比预期的稍高一些,但288 GB的容量是Blackwell B200 GPU的192 GB的1.5倍,正好符合预期。

Rubin GPU的基本规格显示,这个双小芯片Rubin GPU插槽的NVFP4推理性能为50 petaflops,是Blackwell B200 GPU的5倍,但在训练方面,NVFP4精度浮点运算的性能仅为35 petaflops,仅为B200的10 petaflops的3.5倍。后续的B300经过调整,AI推理性能达到15 petaflops,比B200提升了50%。

但对于Rubin GPU,英伟达超大规模和HPC总经理Ian Buck解释了一种叫做自适应压缩的技术,这是Rubin GPU重新设计的张量核心的一部分,也是这些张量核心实现的下一代Transformer引擎的一部分。

"自适应压缩是一种基本上是更智能稀疏性形式的技术,能够自适应地应用,并且我们知道它不会影响准确性,"Buck告诉The Next Platform。

在CPU方面,英伟达今年晚些时候推出的AI和有时的HPC平台包括基于Vera Arm的CPU和英伟达自主研发的"Olympus"核心。

Vera是比Grace更好的CPU。Vera芯片有88个核心,每个核心有两个线程,英伟达称之为"空间多线程",这还有待解释。

Vera核心每个核心有2 MB的L2缓存(是Grace及其非定制Arm Neoverse "Demeter" V2核心的2倍),在核心间共享162 MB的L3缓存(比Grace CPU的114 MB L3缓存增加42%)。Vera芯片有1.5 TB的LPDDR5X内存,比Grace的480 GB LPDDR5X内存高3.2倍。每个Vera核心有六个支持FP64到FP8格式的128位SVE2矢量引擎,而Grace中有四个支持FP64到FP16格式的128位SVE2单元。在1.8 TB/秒的速度下,Vera的NVLink共享内存带宽是Grace的两倍,允许它与配对的Rubin GPU非常快速地共享数据。

将它们组合在一起,你就有了英伟达所说的Vera-Rubin超级芯片。将两个这样的组件放入MGX服务器托盘,然后将十八个这样的托盘放入带有36个NVSwitch 4交换机的"Oberon"机架中,你就有了一个机架级系统。

考虑到英伟达尚未开始销售这个Vera-Rubin怪兽,我们不知道它的成本。但考虑到这个机架中的一切制造成本都比其处理器更高,并且它在相同空间内明显提供更多性能和更好的每瓦性能,我们认为英伟达能够为Vera-Rubin系统收取溢价。至于多少,市场将决定——我们预期英伟达著名的联合创始人兼首席执行官会有很大影响力。

Vera-Rubin系统的灯塔客户包括亚马逊云服务、谷歌云、微软Azure、甲骨文云基础设施,以及CoreWeave、Lambda、Nebius和Nscale等较小参与者。前三个客户正在制造自己的加速器,谷歌很可能在硬件层面以与英伟达相同或更低的每Token成本做到这一点——并构建可扩展到单个内存域中9216个TPU的系统。这种规模是一个非常大的问题,是英伟达必须解决的真正工程问题。我们也相信它能做到。

Q&A

Q1:Vera-Rubin平台相比前一代有什么优势?

A:Vera-Rubin NVL72系统相比Grace-Blackwell NVL72系统,为专家混合AI模型提供每Token推理成本10倍的降低,训练模型所需的GPU数量减少4倍,同时Rubin GPU的推理性能达到50 petaflops,是Blackwell B200 GPU的5倍。

Q2:Vera CPU相比Grace CPU有哪些改进?

A:Vera芯片有88个核心,每核心2MB L2缓存(是Grace的2倍),共享162MB L3缓存(比Grace增加42%),1.5TB LPDDR5X内存(比Grace高3.2倍),NVLink共享内存带宽1.8TB/秒(是Grace的2倍)。

Q3:Vera-Rubin系统何时可以投产使用?

A:根据英伟达HPC和AI工厂解决方案高级总监Dion Harris的说法,Vera-Rubin NVL72平台核心的六个芯片已从台积电回来,正在启动并发送给关键合作伙伴,可以在2026年下半年开始批量生产。

来源:The Next Platform

0赞

好文章,需要你的鼓励

2026

01/06

15:15

分享

点赞

邮件订阅