谷歌发布两款专为"智能体时代"打造的新一代TPU

谷歌推出第八代TPU芯片,分为专注训练的TPU 8t和专注推理的TPU 8i两款。TPU 8t支持最多百万芯片组成单一逻辑集群,每个Pod算力达121 FP4 EFlops,是上代Ironwood的近三倍;TPU 8i则通过扩大片上SRAM至384MB,提升多智能体并发推理效率。两款芯片均采用谷歌自研Axion ARM处理器,能效较上代提升一倍,并支持JAX、PyTorch等主流开发框架。

大多数全力投入AI模型研发的公司都在疯狂抢购英伟达的AI加速芯片,但谷歌走了一条不同的路。谷歌云端AI基础设施的核心,是其自主研发的张量处理器(TPU)产品线。继2025年发布第七代Ironwood TPU之后,谷歌已迈向第八代,而这一次并非简单的性能升级迭代。

新一代TPU分为两个版本,谷歌表示,这将为其自身及客户提供更快速、更高效的AI平台。谷歌强调,"智能体时代"与以往的AI系统有着本质区别,这要求硬件层面也必须采用全新思路。为此,工程师们专门设计了用于训练的TPU 8t和用于推理的TPU 8i。

在AI模型能够被用来分析数据或制作表情包之前,必须先经历训练过程。TPU 8t正是专为AI生命周期中的这一环节而生,旨在将前沿AI模型的训练时间从数月压缩至数周。

谷歌将其新一代TPU 8t服务器集群称为"Pod",每个Pod集成了9600块芯片,配备两PB共享高带宽内存。谷歌宣称TPU 8t支持线性扩展,单个逻辑集群最多可容纳100万块芯片。正是这类创新,让超大规模AI模型的训练速度大幅提升,同时也推高了整个行业的内存价格。但对于那些专注于构建大型AI模型的团队来说,这些硬件大幅节省了时间——每个Pod可提供高达121 FP4 EFlops的算力,几乎是Ironwood训练算力上限的三倍。

新芯片不仅提升了训练速度,谷歌还表示每输入一伏特电压,TPU 8t所能提供的有效算力也更高。谷歌公布的"有效算力"(Goodpute)利用率高达97%,意味着更少的等待与资源浪费。得益于更优化的非规则内存访问处理、硬件故障自动处理机制,以及对所有连接芯片的实时遥测监控,TPU 8t能够将更多时间真正用于推进模型训练。

训练完成后,AI模型进入推理模式,用于生成Token——这正是当你向模型发出指令时,后台所发生的过程。推理对算力的需求低于训练,因此用同一套硬件承担两项任务效率较低。这也是推理任务交由TPU 8i负责的原因。TPU 8i专为高效运行多个专用智能体而设计,等待延迟更低。与上一代Ironwood推理集群仅256块芯片相比,TPU 8i的Pod规模扩大至1152块芯片,每个Pod可提供11.6 EFlops的算力,远低于TPU 8t的Pod算力水平。

谷歌将每块TPU 8i的片上SRAM容量提升至384 MB,是上一代的三倍。这使新芯片能够在片上保存更大的键值缓存(Key Value Cache),从而加速支持更长上下文窗口的模型。第八代AI加速器也是谷歌首批完全采用自研Axion ARM架构CPU作为宿主处理器的产品,每两块TPU配备一颗CPU。而在Ironwood时代,每颗x86 CPU需要服务四块TPU芯片。谷歌表示,这种"全栈式"ARM架构方案能够大幅提升整体效率。

效率优先的设计理念

效率成为谷歌新一代TPU核心设计理念,背后有其深刻逻辑。训练和运行前沿AI模型成本高昂,投资回报尚不明朗。各大公司仍在生成式AI上持续烧钱,期望效率能够在某个时间节点实现突破。谷歌的新一代TPU能否助推这一转变,目前还是未知数,但谷歌确实取得了显著进步。

生成式AI系统消耗大量电力,这也是外界对其应用持保留态度的主要原因之一。第八代TPU的功耗并不低,但谷歌表示,与Ironwood相比,新芯片每瓦特性能提升了一倍。谷歌还着重介绍了其数据中心的改进成果——这些数据中心据称与TPU进行了"协同设计"。通过将网络与计算集成于单芯片,以及更高效的Pod布局,单位电力所能提供的计算能力据报道提升了六倍。当然,这并不意味着数据中心的总用电量会减少,而是意味着同等电力可以换来更多算力。

数据中心冷却的水资源消耗同样是一项重要的效率议题。AI服务器高密度计算所产生的热量无法依靠空气冷却散出,液冷是唯一可行的方案。谷歌将其第四代液冷系统升级适配至新芯片,通过主动控制阀门根据工作负载动态调节水流,进一步提升了冷却效率。

TPU 8t和TPU 8i未来将为谷歌基于Gemini的智能体提供算力支撑,同时也面向第三方开发者开放。两款新TPU均兼容开发者常用的主流框架,包括JAX、MaxText、PyTorch、SGLang和vLLM。

谷歌发布消息后,英伟达股价一度短暂下跌约1.5%,但随后迅速回升,再度站上每股200美元以上。在AI加速芯片需求激增的推动下,英伟达市值在过去一年翻了一倍有余,而谷歌的涨幅甚至更为可观。这正是潜在AI泡沫的典型特征。当然,那些从中获益最多的公司并不认为这是泡沫——在他们眼中,这不过是智能体AI时代的序幕。

Q&A

Q1:谷歌TPU 8t和TPU 8i有什么区别?

A:TPU 8t专为AI模型训练设计,目标是将前沿模型训练时间从数月缩短到数周,每个Pod提供121 FP4 EFlops算力;TPU 8i则专为推理优化,负责在模型训练完成后高效运行智能体任务,每个Pod提供11.6 EFlops算力。两者分工明确,分别针对AI生命周期的不同阶段进行了专项优化。

Q2:谷歌第八代TPU在能效方面有哪些提升?

A:谷歌表示第八代TPU每瓦特性能是上一代Ironwood的两倍。通过将网络与计算集成于单芯片,以及更高效的Pod布局,数据中心单位电力可提供的计算能力提升了六倍。此外,液冷系统也进行了升级,通过主动控制阀门根据工作负载动态调节水流,进一步降低冷却能耗。

Q3:谷歌新一代TPU支持哪些开发框架?

A:TPU 8t和TPU 8i均兼容主流开发框架,包括JAX、MaxText、PyTorch、SGLang和vLLM,方便第三方开发者在现有工作流程中直接使用,无需大幅调整开发环境。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2026

04/23

15:52

分享

点赞

邮件订阅