谷歌的Ironwood TPU代表着比英伟达愿意承认的更大威胁。通过其TPU,谷歌一次次证明了重要的不是加速器的规模大小,而是在生产环境中扩展它们的效率。
随着最新一代Ironwood加速器预计在未来几周内全面上市,这家搜索巨头不仅在规模上占据优势,还拥有一个张量处理单元(TPU),其性能足以与英伟达的Blackwell巨兽一争高下。
谷歌的TPU v7加速器首次于4月发布,尽管当时与El Capitan超级计算机的比较显得有些夸张——Ironwood TPU Pod并非比能源部最强大的设备快24倍——但这代表了相比前几代产品的重大性能飞跃。
从历史上看,谷歌的TPU在原始FLOPS、内存容量和带宽方面一直不及英伟达以及近期AMD的同期GPU,但通过简单地增加更多设备来弥补这一差距。
谷歌一直以pods形式提供其TPU——包含数百甚至数千个芯片的大规模扩展计算域。如果需要额外的计算能力,用户可以扩展到多个pods。
通过TPU v7,谷歌的加速器在标准化相同精度的浮点性能时,表现已接近英伟达Blackwell GPU的水平。
每个Ironwood TPU拥有4.6 petaFLOPS的密集FP8性能,略高于英伟达B200的4.5 petaFLOPS,仅略低于GPU巨头更强大且更耗电的GB200和GB300加速器的5 petaFLOPS。
支撑这种计算能力的是192 GB的HBM3e内存,提供7.4 TB/s的带宽,这再次使其与英伟达B200的192GB HBM和8TB/s内存带宽处于同一水平。
在芯片间通信方面,每个TPU配备四个ICI链路,提供9.6 Tbps的聚合双向带宽,相比之下B200和B300为14.4 Tbps(1.8 TB/s)。
简而言之,Ironwood是谷歌迄今最强大的TPU,性能是TPU v5p的10倍,是去年发布的TPU v6e "Trillium"加速器的4倍,大致匹配英伟达和AMD最新芯片的性能。
性能与规模的结合
但如前所述,谷歌的真正诀窍在于将TPU扩展到真正巨大的计算域的能力。英伟达的NVL72机架系统使用其专有的NVLink互连技术,将72个最新的Blackwell加速器连接成单一计算域。AMD明年将通过其Helios机架和MI450系列做类似的事情。
相比之下,Ironwood显得庞大,谷歌提供的芯片pods低端为256个,高端可达9,216个。如果这还不够,资金充足的用户可以扩展到额外的POD。早在4月,谷歌告诉我们,其Jupiter数据中心网络技术理论上可以支持多达43个TPU v7 pods的规模计算集群——大约400,000个加速器。尽管如此,虽然技术上可以支持,但目前尚不清楚谷歌TPU v7集群在实践中会有多大。
需要明确的是,包含数十万英伟达GPU的计算集群确实存在,实际上已经变得司空见惯。不同之处在于,直到Blackwell一代之前,这些集群都是使用八路GPU盒子构建的大规模扩展域。英伟达的NVL72将计算单元增加了九倍,但仍远不及谷歌的TPU POD。
谷歌的扩展计算结构方法与英伟达有很大不同。GPU巨头为其机架级平台选择了大型、相对平坦的交换拓扑结构,而谷歌采用3D环面拓扑,其中每个芯片以三维网格方式连接到其他芯片。
这种拓扑消除了对高性能数据包交换机的需求,这些交换机既昂贵又耗电,在重负载下还可能引入不必要的延迟。
虽然环面可以消除交换延迟,但网格拓扑意味着任何一个芯片与另一个芯片通信可能需要更多跳数。随着环面增长,芯片间延迟的可能性也会增加。通过使用交换机,英伟达和AMD能够确保其GPU与下一个芯片之间最多只有两跳距离。
据我们了解,哪种方法更好取决于工作负载。某些工作负载可能受益于谷歌TPU pods中使用的2D和3D环面等大型多跳拓扑,而其他工作负载可能在英伟达和AMD机架设计提供的较小交换计算域上表现更好。
因此,谷歌采用了不同类型的交换技术,允许其将TPU pods切分成各种形状和大小,以更好地适应自身内部和客户工作负载。
谷歌使用光路交换机(OCS)而非传统的数据包交换机。这更类似于20世纪的电话交换台。OCS设备使用各种方法(MEMS器件是其中之一)将一个TPU连接到另一个TPU。由于这种连接通常通过连接一个端口到另一个端口的物理过程实现,因此几乎不会引入延迟。
作为额外好处,OCS还有助于容错,如果TPU出现故障,OCS设备可以将其从网格中移除并用正常工作的部件替换。
竞争中的获胜
谷歌自2021年TPU v4首次亮相以来,一直在其TPU pods中使用2D和3D环面结合OCS设备。谷歌在生产环境中操作大规模计算结构也并不陌生。
其TPU v4支持多达4096个芯片的POD,而TPU v5p将这一数字翻了一倍多,达到8,960个。因此,Ironwood跳跃到9,216个TPU POD对谷歌来说应该不是什么难事。
这些大规模计算域的可用性确实吸引了主要模型构建者的注意,包括那些与谷歌Gemini模型直接竞争的公司。Anthropic是谷歌最大的客户之一,宣布计划利用多达一百万个TPU来训练和服务其下一代Claude模型。
Anthropic对谷歌TPU技术的采用并不令人惊讶,考虑到这家模型开发商还在Project Rainier项目下部署工作负载到数十万个亚马逊Trainium 2加速器上,这些加速器在其计算结构中也利用了2D和3D环面网格拓扑。
虽然英伟达首席执行官黄仁勋可能会淡化AI专用芯片对其GPU帝国的威胁,但很难忽视的是,来自谷歌、亚马逊等公司的芯片在硬件能力和网络可扩展性方面正在迅速追赶,软件往往最终成为决定性因素。
也许这就是为什么分析师们一个季度接一个季度地不断提出这个问题的原因。
Q&A
Q1:Ironwood TPU相比英伟达GPU有什么优势?
A:Ironwood TPU的最大优势在于规模扩展能力。单个TPU pod可包含256到9,216个芯片,而英伟达NVL72系统只能连接72个加速器。在性能方面,Ironwood TPU的4.6 petaFLOPS FP8性能也与英伟达B200的4.5 petaFLOPS相当。
Q2:谷歌TPU采用什么样的网络架构?
A:谷歌TPU采用3D环面拓扑结构,每个芯片以三维网格方式连接,并使用光路交换机(OCS)技术。这种架构消除了对昂贵、耗电的高性能数据包交换机的需求,同时提供更好的容错能力。
Q3:有哪些公司在使用谷歌TPU?
A:Anthropic是谷歌TPU的重要客户,宣布计划使用多达一百万个TPU来训练和服务其下一代Claude模型。许多大语言模型构建者都被这些大规模计算域的可用性所吸引,包括一些与谷歌Gemini模型直接竞争的公司。
好文章,需要你的鼓励
微软正式确认配置管理器将转为年度发布模式,并将Intune作为主要创新重点。该变化将于2026年秋季生效,在此之前还有几个版本发布。微软表示此举是为了与Windows客户端安全和稳定性节奏保持一致,优先确保安全可靠的用户体验。配置管理器将专注于安全性、稳定性和长期支持,而所有新功能创新都将在云端的Intune中进行。
这项由圣母大学和IBM研究院联合开展的研究,开发出了名为DeepEvolve的AI科学助手系统,能够像人类科学家一样进行深度文献研究并将创新想法转化为可执行的算法程序。该系统突破了传统AI要么只能改进算法但缺乏创新、要么只能提出想法但无法实现的局限,在化学、生物学、数学等九个科学领域的测试中都实现了显著的算法性能提升,为AI辅助科学发现开辟了新的道路。
人工智能初创公司aiOla推出基于流匹配训练技术的语音AI模型Drax,挑战OpenAI和阿里巴巴等巨头。该模型重新定义语音算法训练方式,能在嘈杂环境中准确识别语音,兼顾速度与准确性。相比OpenAI的Whisper和阿里巴巴Qwen2,Drax采用并行流处理技术,速度提升32倍,词错误率仅7.4%。该模型已在GitHub开源,提供三种规模版本。
卡内基梅隆大学研究团队通过3331次大规模实验,系统揭示了代码训练如何提升AI推理能力。研究发现,代码的结构特性比语义内容更重要,适当的抽象形式(如伪代码)可以达到与原始代码相同的效果。不同编程语言产生差异化影响:低抽象语言有利于数学推理,Python更适合自然语言任务。这些发现为AI训练数据的科学化设计提供了重要指导。