谷歌将TPU产品线一分为二,迎接智能体时代

在Google Cloud Next大会上,谷歌发布了第八代TPU的两款独立芯片:专为训练设计的TPU 8t与专为推理优化的TPU 8i。TPU 8t支持百万级芯片互联训练集群,性价比较上代提升2.7倍;TPU 8i引入全新Boardfly网络拓扑与片上集体加速引擎,将全局同步延迟降低5倍,推理性价比提升80%。谷歌认为,智能体工作负载已使单一加速器难以兼顾两种场景,此次拆分是应对新时代的战略选择。

在谷歌张量处理器(TPU)近十年的发展历史中,每一代产品通常只推出一款芯片,即便存在不同SKU版本,其底层架构也保持一致。这套架构既承担前沿模型的预训练任务,也负责推理工作。而如今,谷歌认为是时候做出改变了,因为这两种工作模式正在走向分化。

在本周三举办的Google Cloud Next大会上,谷歌正式发布了TPU 8t与TPU 8i,这是两款分别面向训练与推理任务的独立芯片。谷歌的判断是:智能体工作负载已使单一加速器无法同时兼顾两者,若要在前沿领域持续提升性价比,就必须放弃"一芯两用"的思路。

TPU 8t保留了3D环形互连网络拓扑结构,将芯片以三维网格形式连接,每个维度首尾相连形成环状,每块芯片可直接与六个相邻芯片通信。同时保留了谷歌标准的SparseCores,用于加速嵌入查找中不规则的内存访问模式。

TPU 8i则以全新的片上集合通信加速引擎(Collectives Acceleration Engine)取代了SparseCores。谷歌表示,这一设计将全局同步操作的延迟降低了多达5倍,而全局同步恰恰是思维链解码和混合专家路由中最耗时的环节。网络拓扑结构也随之调整。

TPU 8i放弃了3D环形结构,转而采用一种受Dragonfly架构启发的新型布局,称为Boardfly。这是一种层次化拓扑,在小组内部实现芯片的全互连,再通过直连光纤长距离链路将各组相互连接,而非通过网格转发流量。与环形拓扑专注于相邻芯片间通信不同,Dragonfly架构的优势在于缩短系统内任意两芯片之间的路径。谷歌表示,新布局将1024芯片集群中的最大跳数从16跳降至7跳。

TPU 8i最关键的设计目标是突破内存墙。该芯片将片上SRAM提升至384MB,HBM容量增至288GB。谷歌表示,这一配置足以将长上下文推理模型的键值缓存完整保存在芯片上。

在智能体工作流中,每次访问片外内存都会给用户响应带来延迟,并在多轮推理中持续累积。将工作数据集保留在片上,是解决问题的核心所在。

这也解释了为何TPU 8i的单芯片带宽高于TPU 8t——这对于仍将训练视为更高负载任务的人来说,可能有些违反直觉。但实际上,训练属于计算密集型任务,而智能体推理则属于内存密集型任务。

就在一年前,谷歌的立场截然不同。推出第七代TPU Ironwood时,谷歌将其定位为"首款面向推理时代的谷歌TPU",并主张同一芯片可兼顾预训练、训练与大规模服务。

但训练与推理在需求上一直存在一定差异。真正改变局面的,是推理本身的演变。早期聊天机器人式的传统推理模式——一问一答——是一种工作负载;而智能体推理则截然不同:主智能体将目标分解为子任务,分发给一批专用智能体并进行长链式推理,对键值缓存容量、全对全集合通信和尾延迟提出了更高要求。

模型本身也在变化,混合专家架构获得了更多关注,而这类架构同样受益于高内存带宽。

训练工作负载同样在演进。前沿模型的训练如今需要数十万芯片规模的集群,才能在合理时间内完成收敛。TPU 8t超级集群可扩展至9600块芯片,谷歌表示其新一代Virgo数据中心网络架构与Pathways软件可将超过百万块TPU 8t芯片整合为一个统一的逻辑训练集群。

谷歌宣称,TPU 8t的训练性价比较Ironwood提升约2.7倍,TPU 8i的推理性价比提升80%。这些数据能否在客户实际测试中得到验证,则是另一个问题。

将这一分拆策略与AWS的做法对比,会发现截然不同的思路。在2025年re:Invent大会上,亚马逊发布了Trainium3,明确表示该芯片将同时承担训练与推理任务,Inferentia产品线实际上已逐步淡出。AWS的判断是:随着模型规模增大、推理链延长,推理正越来越像训练,训练优化与推理优化芯片之间的差距正在缩小,而非扩大。

谷歌第八代TPU,正是对这一判断的公开反驳。

英伟达则处于中间地带。Vera Rubin NVL72平台既支持训练也支持推理,谷歌也通过新推出的A5X裸金属实例进行转售。从单芯片角度看,英伟达Rubin GPU的性能远强于两款TPU 8系列芯片,NVFP4推理性能约达50 PFlops,而TPU 8i单芯片为10.1 FP4 PFlops;但从集群维度看,结论则反转:一个NVL72机架的NVFP4推理峰值约为3.6 ExaFlops,而一个由1152块芯片构成的TPU 8i集群在FP8精度下可达11.6 ExaFlops。

两家公司目标相近,但路径不同:英伟达选择更少、更强的芯片配合NVLink;谷歌则选择大量小芯片搭配自研互连网络。

两款芯片预计于今年晚些时候发布,正式上市时间尚未确定,将通过谷歌AI超级计算机架构对外提供服务。

有两个面向客户的重要细节,在发布会的框架叙述中被一定程度上低估了。TPU 8t和8i是首批提供裸金属访问的TPU产品,这意味着客户可以自行管理主机,而无需经过谷歌的虚拟机层。这是针对一类历来默认选择英伟达的工作负载所作出的让步,包括底层内核开发、延迟敏感型推理以及第三方独立软件商等场景。

谷歌将原生PyTorch对TPU的支持命名为TorchTPU,目前已进入预览阶段。JAX长期以来是TPU上的一等框架,而PyTorch的支持则自TPU面向外部客户销售以来一直较为awkward。若TorchTPU能在生产环境中稳定运行,将消除开发者长期默认选择GPU基础设施的重要原因之一。

在万块芯片以上规模的训练任务中,理论FLOPs与实际有效FLOPs之间的差距可能极为悬殊。单块芯片的停滞即可拖慢整个同步任务,每次检查点重启都意味着集群的宝贵训练时间白白流逝。

谷歌表示,TPU 8t的目标"有效算力利用率"(goodput)达到97%,即在已分配算力中真正用于有效计算的比例。

谷歌内部的判断似乎是:在智能体时代,单一通用加速器将不再像预训练时代那样独领风骚。

第八代TPU是此次发布的核心,但它也是更大范围基础设施升级的组成部分。谷歌同步宣布了多项新举措:基于英伟达Vera Rubin NVL72的A5X裸金属实例;新一代基于Arm架构的Axion N4A虚拟机家族,采用谷歌自研CPU,现已成为TPU 8t、TPU 8i和N4A的统一主机平台,以此在架构层面回应英伟达的Grace和Vera;Virgo网络架构,可将13.4万块TPU 8t芯片以47 Pb/s的对分带宽互连;托管Lustre文件系统,带宽达10 TB/s、容量达80 PB;Cloud Storage上的Rapid Buckets,面向检查点任务提供亚毫秒级延迟;面向ISV构建并行文件系统的Z4M虚拟机,配备168 TiB本地SSD;以及GKE更新,包含基于机器学习驱动、延迟感知路由的推理网关。

上述所有组件旨在协同运作。Virgo的带宽指标围绕TPU 8t的并行度需求设计;专属键值缓存存储子系统则针对TPU 8i的片上占用进行了容量规划;Axion的拓扑经过调优,以消除TPU主机侧的性能瓶颈。

Q&A

Q1:TPU 8t和TPU 8i有什么区别?

A:TPU 8t专为训练任务设计,保留了3D环形互连网络和SparseCores,可扩展至9600块芯片,训练性价比较上一代Ironwood提升约2.7倍。TPU 8i则专为推理任务优化,片上SRAM提升至384MB,HBM容量达288GB,新增集合通信加速引擎,将全局同步延迟降低最多5倍,推理性价比提升80%。

Q2:谷歌为什么要将TPU拆分成训练和推理两款芯片?

A:核心原因是智能体工作负载的兴起。传统的一问一答式推理与训练的需求差异尚可接受,但智能体推理需要长链推理、大规模键值缓存和低尾延迟,属于内存密集型任务,而训练是计算密集型任务。两者需求分化明显,谷歌认为单一芯片已无法同时兼顾两者并保持最优性价比。

Q3:TorchTPU是什么?为什么它对开发者很重要?

A:TorchTPU是谷歌推出的原生PyTorch对TPU的支持方案,目前处于预览阶段。长期以来,TPU主要支持JAX框架,PyTorch的支持体验较差,导致许多开发者默认选择英伟达GPU。若TorchTPU在生产环境中稳定运行,将降低开发者迁移至TPU基础设施的门槛,对谷歌争夺AI基础设施市场份额具有重要意义。

来源:The New Stack

0赞

好文章,需要你的鼓励

2026

05/08

12:28

分享

点赞

邮件订阅