谷歌将TPU产品线一分为二，迎接智能体时代

在Google Cloud Next大会上，谷歌发布了第八代TPU的两款独立芯片：专为训练设计的TPU 8t与专为推理优化的TPU 8i。TPU 8t支持百万级芯片互联训练集群，性价比较上代提升2.7倍；TPU 8i引入全新Boardfly网络拓扑与片上集体加速引擎，将全局同步延迟降低5倍，推理性价比提升80%。谷歌认为，智能体工作负载已使单一加速器难以兼顾两种场景，此次拆分是应对新时代的战略选择。

在谷歌张量处理器（TPU）近十年的发展历史中，每一代产品通常只推出一款芯片，即便存在不同SKU版本，其底层架构也保持一致。这套架构既承担前沿模型的预训练任务，也负责推理工作。而如今，谷歌认为是时候做出改变了，因为这两种工作模式正在走向分化。

在本周三举办的Google Cloud Next大会上，谷歌正式发布了TPU 8t与TPU 8i，这是两款分别面向训练与推理任务的独立芯片。谷歌的判断是：智能体工作负载已使单一加速器无法同时兼顾两者，若要在前沿领域持续提升性价比，就必须放弃"一芯两用"的思路。

TPU 8t保留了3D环形互连网络拓扑结构，将芯片以三维网格形式连接，每个维度首尾相连形成环状，每块芯片可直接与六个相邻芯片通信。同时保留了谷歌标准的SparseCores，用于加速嵌入查找中不规则的内存访问模式。

TPU 8i则以全新的片上集合通信加速引擎（Collectives Acceleration Engine）取代了SparseCores。谷歌表示，这一设计将全局同步操作的延迟降低了多达5倍，而全局同步恰恰是思维链解码和混合专家路由中最耗时的环节。网络拓扑结构也随之调整。

TPU 8i放弃了3D环形结构，转而采用一种受Dragonfly架构启发的新型布局，称为Boardfly。这是一种层次化拓扑，在小组内部实现芯片的全互连，再通过直连光纤长距离链路将各组相互连接，而非通过网格转发流量。与环形拓扑专注于相邻芯片间通信不同，Dragonfly架构的优势在于缩短系统内任意两芯片之间的路径。谷歌表示，新布局将1024芯片集群中的最大跳数从16跳降至7跳。

TPU 8i最关键的设计目标是突破内存墙。该芯片将片上SRAM提升至384MB，HBM容量增至288GB。谷歌表示，这一配置足以将长上下文推理模型的键值缓存完整保存在芯片上。

在智能体工作流中，每次访问片外内存都会给用户响应带来延迟，并在多轮推理中持续累积。将工作数据集保留在片上，是解决问题的核心所在。

这也解释了为何TPU 8i的单芯片带宽高于TPU 8t——这对于仍将训练视为更高负载任务的人来说，可能有些违反直觉。但实际上，训练属于计算密集型任务，而智能体推理则属于内存密集型任务。

就在一年前，谷歌的立场截然不同。推出第七代TPU Ironwood时，谷歌将其定位为"首款面向推理时代的谷歌TPU"，并主张同一芯片可兼顾预训练、训练与大规模服务。

但训练与推理在需求上一直存在一定差异。真正改变局面的，是推理本身的演变。早期聊天机器人式的传统推理模式——一问一答——是一种工作负载；而智能体推理则截然不同：主智能体将目标分解为子任务，分发给一批专用智能体并进行长链式推理，对键值缓存容量、全对全集合通信和尾延迟提出了更高要求。

模型本身也在变化，混合专家架构获得了更多关注，而这类架构同样受益于高内存带宽。

训练工作负载同样在演进。前沿模型的训练如今需要数十万芯片规模的集群，才能在合理时间内完成收敛。TPU 8t超级集群可扩展至9600块芯片，谷歌表示其新一代Virgo数据中心网络架构与Pathways软件可将超过百万块TPU 8t芯片整合为一个统一的逻辑训练集群。

谷歌宣称，TPU 8t的训练性价比较Ironwood提升约2.7倍，TPU 8i的推理性价比提升80%。这些数据能否在客户实际测试中得到验证，则是另一个问题。

将这一分拆策略与AWS的做法对比，会发现截然不同的思路。在2025年re:Invent大会上，亚马逊发布了Trainium3，明确表示该芯片将同时承担训练与推理任务，Inferentia产品线实际上已逐步淡出。AWS的判断是：随着模型规模增大、推理链延长，推理正越来越像训练，训练优化与推理优化芯片之间的差距正在缩小，而非扩大。

谷歌第八代TPU，正是对这一判断的公开反驳。

英伟达则处于中间地带。Vera Rubin NVL72平台既支持训练也支持推理，谷歌也通过新推出的A5X裸金属实例进行转售。从单芯片角度看，英伟达Rubin GPU的性能远强于两款TPU 8系列芯片，NVFP4推理性能约达50 PFlops，而TPU 8i单芯片为10.1 FP4 PFlops；但从集群维度看，结论则反转：一个NVL72机架的NVFP4推理峰值约为3.6 ExaFlops，而一个由1152块芯片构成的TPU 8i集群在FP8精度下可达11.6 ExaFlops。

两家公司目标相近，但路径不同：英伟达选择更少、更强的芯片配合NVLink；谷歌则选择大量小芯片搭配自研互连网络。

两款芯片预计于今年晚些时候发布，正式上市时间尚未确定，将通过谷歌AI超级计算机架构对外提供服务。

有两个面向客户的重要细节，在发布会的框架叙述中被一定程度上低估了。TPU 8t和8i是首批提供裸金属访问的TPU产品，这意味着客户可以自行管理主机，而无需经过谷歌的虚拟机层。这是针对一类历来默认选择英伟达的工作负载所作出的让步，包括底层内核开发、延迟敏感型推理以及第三方独立软件商等场景。

谷歌将原生PyTorch对TPU的支持命名为TorchTPU，目前已进入预览阶段。JAX长期以来是TPU上的一等框架，而PyTorch的支持则自TPU面向外部客户销售以来一直较为awkward。若TorchTPU能在生产环境中稳定运行，将消除开发者长期默认选择GPU基础设施的重要原因之一。

在万块芯片以上规模的训练任务中，理论FLOPs与实际有效FLOPs之间的差距可能极为悬殊。单块芯片的停滞即可拖慢整个同步任务，每次检查点重启都意味着集群的宝贵训练时间白白流逝。

谷歌表示，TPU 8t的目标"有效算力利用率"（goodput）达到97%，即在已分配算力中真正用于有效计算的比例。

谷歌内部的判断似乎是：在智能体时代，单一通用加速器将不再像预训练时代那样独领风骚。

第八代TPU是此次发布的核心，但它也是更大范围基础设施升级的组成部分。谷歌同步宣布了多项新举措：基于英伟达Vera Rubin NVL72的A5X裸金属实例；新一代基于Arm架构的Axion N4A虚拟机家族，采用谷歌自研CPU，现已成为TPU 8t、TPU 8i和N4A的统一主机平台，以此在架构层面回应英伟达的Grace和Vera；Virgo网络架构，可将13.4万块TPU 8t芯片以47 Pb/s的对分带宽互连；托管Lustre文件系统，带宽达10 TB/s、容量达80 PB；Cloud Storage上的Rapid Buckets，面向检查点任务提供亚毫秒级延迟；面向ISV构建并行文件系统的Z4M虚拟机，配备168 TiB本地SSD；以及GKE更新，包含基于机器学习驱动、延迟感知路由的推理网关。

上述所有组件旨在协同运作。Virgo的带宽指标围绕TPU 8t的并行度需求设计；专属键值缓存存储子系统则针对TPU 8i的片上占用进行了容量规划；Axion的拓扑经过调优，以消除TPU主机侧的性能瓶颈。

Q&A

Q1：TPU 8t和TPU 8i有什么区别？

A：TPU 8t专为训练任务设计，保留了3D环形互连网络和SparseCores，可扩展至9600块芯片，训练性价比较上一代Ironwood提升约2.7倍。TPU 8i则专为推理任务优化，片上SRAM提升至384MB，HBM容量达288GB，新增集合通信加速引擎，将全局同步延迟降低最多5倍，推理性价比提升80%。

Q2：谷歌为什么要将TPU拆分成训练和推理两款芯片？

A：核心原因是智能体工作负载的兴起。传统的一问一答式推理与训练的需求差异尚可接受，但智能体推理需要长链推理、大规模键值缓存和低尾延迟，属于内存密集型任务，而训练是计算密集型任务。两者需求分化明显，谷歌认为单一芯片已无法同时兼顾两者并保持最优性价比。

Q3：TorchTPU是什么？为什么它对开发者很重要？

A：TorchTPU是谷歌推出的原生PyTorch对TPU的支持方案，目前处于预览阶段。长期以来，TPU主要支持JAX框架，PyTorch的支持体验较差，导致许多开发者默认选择英伟达GPU。若TorchTPU在生产环境中稳定运行，将降低开发者迁移至TPU基础设施的门槛，对谷歌争夺AI基础设施市场份额具有重要意义。

来源：The New Stack

0赞

好文章，需要你的鼓励

谷歌将TPU产品线一分为二，迎接智能体时代

来源：The New Stack

2026

05/08

12:28

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

SUSE与英伟达联合推出面向主权企业工作负载的一站式AI工厂平台

SmartBear Swagger更新：专为解决AI编程工具引发的API偏移问题

OpenAI超级应用加速成形，Codex能力已远超编程本身

Google Gemini Mac版正式发布，告别浏览器切换烦恼

OpenAI Agents SDK重大升级：智能体沙盒隔离与生产部署全解析

Claude Code崛起：个人软件开发的新时代

Meta利用AI分析身高与骨骼结构识别未成年用户

CopilotKit融资2700万美元，助力开发者在应用中部署原生AI智能体

印度首家生成式AI独角兽转型云服务，AI模型雄心遭遇现实考验

AI设计的汽车将颠覆传统造车模式吗？

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: