谷歌Ironwood TPU对英伟达构成超预期威胁

谷歌最新一代Ironwood TPU v7加速器即将上市,在性能上已接近英伟达Blackwell GPU水平。每颗TPU提供4.6 petaFLOPS的FP8性能,配备192GB HBM3e内存。谷歌真正优势在于规模化能力,TPU pod最多可容纳9216颗芯片,理论上可扩展至40万颗加速器。采用3D环面拓扑和光学电路交换技术,在大规模计算集群方面具有独特优势。

谷歌的Ironwood TPU代表着比英伟达愿意承认的更大威胁。通过其TPU,谷歌一次次证明了重要的不是加速器的规模大小,而是在生产环境中扩展它们的效率。

随着最新一代Ironwood加速器预计在未来几周内全面上市,这家搜索巨头不仅在规模上占据优势,还拥有一个张量处理单元(TPU),其性能足以与英伟达的Blackwell巨兽一争高下。

谷歌的TPU v7加速器首次于4月发布,尽管当时与El Capitan超级计算机的比较显得有些夸张——Ironwood TPU Pod并非比能源部最强大的设备快24倍——但这代表了相比前几代产品的重大性能飞跃。

从历史上看,谷歌的TPU在原始FLOPS、内存容量和带宽方面一直不及英伟达以及近期AMD的同期GPU,但通过简单地增加更多设备来弥补这一差距。

谷歌一直以pods形式提供其TPU——包含数百甚至数千个芯片的大规模扩展计算域。如果需要额外的计算能力,用户可以扩展到多个pods。

通过TPU v7,谷歌的加速器在标准化相同精度的浮点性能时,表现已接近英伟达Blackwell GPU的水平。

每个Ironwood TPU拥有4.6 petaFLOPS的密集FP8性能,略高于英伟达B200的4.5 petaFLOPS,仅略低于GPU巨头更强大且更耗电的GB200和GB300加速器的5 petaFLOPS。

支撑这种计算能力的是192 GB的HBM3e内存,提供7.4 TB/s的带宽,这再次使其与英伟达B200的192GB HBM和8TB/s内存带宽处于同一水平。

在芯片间通信方面,每个TPU配备四个ICI链路,提供9.6 Tbps的聚合双向带宽,相比之下B200和B300为14.4 Tbps(1.8 TB/s)。

简而言之,Ironwood是谷歌迄今最强大的TPU,性能是TPU v5p的10倍,是去年发布的TPU v6e "Trillium"加速器的4倍,大致匹配英伟达和AMD最新芯片的性能。

性能与规模的结合

但如前所述,谷歌的真正诀窍在于将TPU扩展到真正巨大的计算域的能力。英伟达的NVL72机架系统使用其专有的NVLink互连技术,将72个最新的Blackwell加速器连接成单一计算域。AMD明年将通过其Helios机架和MI450系列做类似的事情。

相比之下,Ironwood显得庞大,谷歌提供的芯片pods低端为256个,高端可达9,216个。如果这还不够,资金充足的用户可以扩展到额外的POD。早在4月,谷歌告诉我们,其Jupiter数据中心网络技术理论上可以支持多达43个TPU v7 pods的规模计算集群——大约400,000个加速器。尽管如此,虽然技术上可以支持,但目前尚不清楚谷歌TPU v7集群在实践中会有多大。

需要明确的是,包含数十万英伟达GPU的计算集群确实存在,实际上已经变得司空见惯。不同之处在于,直到Blackwell一代之前,这些集群都是使用八路GPU盒子构建的大规模扩展域。英伟达的NVL72将计算单元增加了九倍,但仍远不及谷歌的TPU POD。

谷歌的扩展计算结构方法与英伟达有很大不同。GPU巨头为其机架级平台选择了大型、相对平坦的交换拓扑结构,而谷歌采用3D环面拓扑,其中每个芯片以三维网格方式连接到其他芯片。

这种拓扑消除了对高性能数据包交换机的需求,这些交换机既昂贵又耗电,在重负载下还可能引入不必要的延迟。

虽然环面可以消除交换延迟,但网格拓扑意味着任何一个芯片与另一个芯片通信可能需要更多跳数。随着环面增长,芯片间延迟的可能性也会增加。通过使用交换机,英伟达和AMD能够确保其GPU与下一个芯片之间最多只有两跳距离。

据我们了解,哪种方法更好取决于工作负载。某些工作负载可能受益于谷歌TPU pods中使用的2D和3D环面等大型多跳拓扑,而其他工作负载可能在英伟达和AMD机架设计提供的较小交换计算域上表现更好。

因此,谷歌采用了不同类型的交换技术,允许其将TPU pods切分成各种形状和大小,以更好地适应自身内部和客户工作负载。

谷歌使用光路交换机(OCS)而非传统的数据包交换机。这更类似于20世纪的电话交换台。OCS设备使用各种方法(MEMS器件是其中之一)将一个TPU连接到另一个TPU。由于这种连接通常通过连接一个端口到另一个端口的物理过程实现,因此几乎不会引入延迟。

作为额外好处,OCS还有助于容错,如果TPU出现故障,OCS设备可以将其从网格中移除并用正常工作的部件替换。

竞争中的获胜

谷歌自2021年TPU v4首次亮相以来,一直在其TPU pods中使用2D和3D环面结合OCS设备。谷歌在生产环境中操作大规模计算结构也并不陌生。

其TPU v4支持多达4096个芯片的POD,而TPU v5p将这一数字翻了一倍多,达到8,960个。因此,Ironwood跳跃到9,216个TPU POD对谷歌来说应该不是什么难事。

这些大规模计算域的可用性确实吸引了主要模型构建者的注意,包括那些与谷歌Gemini模型直接竞争的公司。Anthropic是谷歌最大的客户之一,宣布计划利用多达一百万个TPU来训练和服务其下一代Claude模型。

Anthropic对谷歌TPU技术的采用并不令人惊讶,考虑到这家模型开发商还在Project Rainier项目下部署工作负载到数十万个亚马逊Trainium 2加速器上,这些加速器在其计算结构中也利用了2D和3D环面网格拓扑。

虽然英伟达首席执行官黄仁勋可能会淡化AI专用芯片对其GPU帝国的威胁,但很难忽视的是,来自谷歌、亚马逊等公司的芯片在硬件能力和网络可扩展性方面正在迅速追赶,软件往往最终成为决定性因素。

也许这就是为什么分析师们一个季度接一个季度地不断提出这个问题的原因。

Q&A

Q1:Ironwood TPU相比英伟达GPU有什么优势?

A:Ironwood TPU的最大优势在于规模扩展能力。单个TPU pod可包含256到9,216个芯片,而英伟达NVL72系统只能连接72个加速器。在性能方面,Ironwood TPU的4.6 petaFLOPS FP8性能也与英伟达B200的4.5 petaFLOPS相当。

Q2:谷歌TPU采用什么样的网络架构?

A:谷歌TPU采用3D环面拓扑结构,每个芯片以三维网格方式连接,并使用光路交换机(OCS)技术。这种架构消除了对昂贵、耗电的高性能数据包交换机的需求,同时提供更好的容错能力。

Q3:有哪些公司在使用谷歌TPU?

A:Anthropic是谷歌TPU的重要客户,宣布计划使用多达一百万个TPU来训练和服务其下一代Claude模型。许多大语言模型构建者都被这些大规模计算域的可用性所吸引,包括一些与谷歌Gemini模型直接竞争的公司。

来源:The Register

0赞

好文章,需要你的鼓励

2025

11/07

08:11

分享

点赞

邮件订阅