在谷歌张量处理器(TPU)近十年的发展历史中,每一代产品通常只推出一款芯片,即便存在不同SKU版本,其底层架构也保持一致。这套架构既承担前沿模型的预训练任务,也负责推理工作。而如今,谷歌认为是时候做出改变了,因为这两种工作模式正在走向分化。
在本周三举办的Google Cloud Next大会上,谷歌正式发布了TPU 8t与TPU 8i,这是两款分别面向训练与推理任务的独立芯片。谷歌的判断是:智能体工作负载已使单一加速器无法同时兼顾两者,若要在前沿领域持续提升性价比,就必须放弃"一芯两用"的思路。
TPU 8t保留了3D环形互连网络拓扑结构,将芯片以三维网格形式连接,每个维度首尾相连形成环状,每块芯片可直接与六个相邻芯片通信。同时保留了谷歌标准的SparseCores,用于加速嵌入查找中不规则的内存访问模式。
TPU 8i则以全新的片上集合通信加速引擎(Collectives Acceleration Engine)取代了SparseCores。谷歌表示,这一设计将全局同步操作的延迟降低了多达5倍,而全局同步恰恰是思维链解码和混合专家路由中最耗时的环节。网络拓扑结构也随之调整。
TPU 8i放弃了3D环形结构,转而采用一种受Dragonfly架构启发的新型布局,称为Boardfly。这是一种层次化拓扑,在小组内部实现芯片的全互连,再通过直连光纤长距离链路将各组相互连接,而非通过网格转发流量。与环形拓扑专注于相邻芯片间通信不同,Dragonfly架构的优势在于缩短系统内任意两芯片之间的路径。谷歌表示,新布局将1024芯片集群中的最大跳数从16跳降至7跳。
TPU 8i最关键的设计目标是突破内存墙。该芯片将片上SRAM提升至384MB,HBM容量增至288GB。谷歌表示,这一配置足以将长上下文推理模型的键值缓存完整保存在芯片上。
在智能体工作流中,每次访问片外内存都会给用户响应带来延迟,并在多轮推理中持续累积。将工作数据集保留在片上,是解决问题的核心所在。
这也解释了为何TPU 8i的单芯片带宽高于TPU 8t——这对于仍将训练视为更高负载任务的人来说,可能有些违反直觉。但实际上,训练属于计算密集型任务,而智能体推理则属于内存密集型任务。
就在一年前,谷歌的立场截然不同。推出第七代TPU Ironwood时,谷歌将其定位为"首款面向推理时代的谷歌TPU",并主张同一芯片可兼顾预训练、训练与大规模服务。
但训练与推理在需求上一直存在一定差异。真正改变局面的,是推理本身的演变。早期聊天机器人式的传统推理模式——一问一答——是一种工作负载;而智能体推理则截然不同:主智能体将目标分解为子任务,分发给一批专用智能体并进行长链式推理,对键值缓存容量、全对全集合通信和尾延迟提出了更高要求。
模型本身也在变化,混合专家架构获得了更多关注,而这类架构同样受益于高内存带宽。
训练工作负载同样在演进。前沿模型的训练如今需要数十万芯片规模的集群,才能在合理时间内完成收敛。TPU 8t超级集群可扩展至9600块芯片,谷歌表示其新一代Virgo数据中心网络架构与Pathways软件可将超过百万块TPU 8t芯片整合为一个统一的逻辑训练集群。
谷歌宣称,TPU 8t的训练性价比较Ironwood提升约2.7倍,TPU 8i的推理性价比提升80%。这些数据能否在客户实际测试中得到验证,则是另一个问题。
将这一分拆策略与AWS的做法对比,会发现截然不同的思路。在2025年re:Invent大会上,亚马逊发布了Trainium3,明确表示该芯片将同时承担训练与推理任务,Inferentia产品线实际上已逐步淡出。AWS的判断是:随着模型规模增大、推理链延长,推理正越来越像训练,训练优化与推理优化芯片之间的差距正在缩小,而非扩大。
谷歌第八代TPU,正是对这一判断的公开反驳。
英伟达则处于中间地带。Vera Rubin NVL72平台既支持训练也支持推理,谷歌也通过新推出的A5X裸金属实例进行转售。从单芯片角度看,英伟达Rubin GPU的性能远强于两款TPU 8系列芯片,NVFP4推理性能约达50 PFlops,而TPU 8i单芯片为10.1 FP4 PFlops;但从集群维度看,结论则反转:一个NVL72机架的NVFP4推理峰值约为3.6 ExaFlops,而一个由1152块芯片构成的TPU 8i集群在FP8精度下可达11.6 ExaFlops。
两家公司目标相近,但路径不同:英伟达选择更少、更强的芯片配合NVLink;谷歌则选择大量小芯片搭配自研互连网络。
两款芯片预计于今年晚些时候发布,正式上市时间尚未确定,将通过谷歌AI超级计算机架构对外提供服务。
有两个面向客户的重要细节,在发布会的框架叙述中被一定程度上低估了。TPU 8t和8i是首批提供裸金属访问的TPU产品,这意味着客户可以自行管理主机,而无需经过谷歌的虚拟机层。这是针对一类历来默认选择英伟达的工作负载所作出的让步,包括底层内核开发、延迟敏感型推理以及第三方独立软件商等场景。
谷歌将原生PyTorch对TPU的支持命名为TorchTPU,目前已进入预览阶段。JAX长期以来是TPU上的一等框架,而PyTorch的支持则自TPU面向外部客户销售以来一直较为awkward。若TorchTPU能在生产环境中稳定运行,将消除开发者长期默认选择GPU基础设施的重要原因之一。
在万块芯片以上规模的训练任务中,理论FLOPs与实际有效FLOPs之间的差距可能极为悬殊。单块芯片的停滞即可拖慢整个同步任务,每次检查点重启都意味着集群的宝贵训练时间白白流逝。
谷歌表示,TPU 8t的目标"有效算力利用率"(goodput)达到97%,即在已分配算力中真正用于有效计算的比例。
谷歌内部的判断似乎是:在智能体时代,单一通用加速器将不再像预训练时代那样独领风骚。
第八代TPU是此次发布的核心,但它也是更大范围基础设施升级的组成部分。谷歌同步宣布了多项新举措:基于英伟达Vera Rubin NVL72的A5X裸金属实例;新一代基于Arm架构的Axion N4A虚拟机家族,采用谷歌自研CPU,现已成为TPU 8t、TPU 8i和N4A的统一主机平台,以此在架构层面回应英伟达的Grace和Vera;Virgo网络架构,可将13.4万块TPU 8t芯片以47 Pb/s的对分带宽互连;托管Lustre文件系统,带宽达10 TB/s、容量达80 PB;Cloud Storage上的Rapid Buckets,面向检查点任务提供亚毫秒级延迟;面向ISV构建并行文件系统的Z4M虚拟机,配备168 TiB本地SSD;以及GKE更新,包含基于机器学习驱动、延迟感知路由的推理网关。
上述所有组件旨在协同运作。Virgo的带宽指标围绕TPU 8t的并行度需求设计;专属键值缓存存储子系统则针对TPU 8i的片上占用进行了容量规划;Axion的拓扑经过调优,以消除TPU主机侧的性能瓶颈。
Q&A
Q1:TPU 8t和TPU 8i有什么区别?
A:TPU 8t专为训练任务设计,保留了3D环形互连网络和SparseCores,可扩展至9600块芯片,训练性价比较上一代Ironwood提升约2.7倍。TPU 8i则专为推理任务优化,片上SRAM提升至384MB,HBM容量达288GB,新增集合通信加速引擎,将全局同步延迟降低最多5倍,推理性价比提升80%。
Q2:谷歌为什么要将TPU拆分成训练和推理两款芯片?
A:核心原因是智能体工作负载的兴起。传统的一问一答式推理与训练的需求差异尚可接受,但智能体推理需要长链推理、大规模键值缓存和低尾延迟,属于内存密集型任务,而训练是计算密集型任务。两者需求分化明显,谷歌认为单一芯片已无法同时兼顾两者并保持最优性价比。
Q3:TorchTPU是什么?为什么它对开发者很重要?
A:TorchTPU是谷歌推出的原生PyTorch对TPU的支持方案,目前处于预览阶段。长期以来,TPU主要支持JAX框架,PyTorch的支持体验较差,导致许多开发者默认选择英伟达GPU。若TorchTPU在生产环境中稳定运行,将降低开发者迁移至TPU基础设施的门槛,对谷歌争夺AI基础设施市场份额具有重要意义。
好文章,需要你的鼓励
无人机食品配送服务商Flytrex与全球知名披萨连锁品牌Little Caesars宣布合作,推出全新Sky2无人机,最大载重达4公斤,可一次配送两个大披萨及饮料,满足全家用餐需求。Sky2支持最远6.4公里的配送范围,平均从起飞到送达仅需4.5分钟。首个试点门店已在德克萨斯州怀利市上线,并实现与Little Caesars订单系统的直接集成。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
法国社会住房项目ViliaSprint?已正式完工,成为欧洲最大的3D打印多户住宅建筑,共12套公寓,建筑面积800平方米。项目由PERI 3D Construction使用COBOD BOD2打印机完成,整体工期较传统建造缩短3个月,实际打印仅用34天(原计划50天),现场操作人员从6人减至3人,建筑废料率从10%降至5%。建筑采用可打印混凝土,集成光伏板及热泵系统,能源自给率约达60%。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。