Google 推出第七代 Ironwood TPU 芯片，借助 AI 进行性能对比

Google宣布第七代张量处理单元(TPU)芯片即将向云客户开放租用，可提供256或9216芯片的集群。新一代TPU在内存带宽、算力和能效方面都有显著提升，专为大语言模型推理设计，每个芯片具有192GB高带宽内存。Google称9216芯片集群的AI算力可达42.5 exaFLOPS，远超现有超级计算机。

在周三的 Cloud Next 大会上，Google 宣布其第七代 Tensor Processing Units (TPU) 即将向云端客户开放租用，可选择 256 芯片或 9,216 芯片的集群方案。

Google 打趣地表示，配备 9,216 个自研 AI 加速器的集群可以提供 42.5 exaFLOPS 的算力，是目前全球最强公开超级计算机——美国的 El Capitan (1.7 exaFLOPS) 的 24 倍算力。

这个数据听起来令人印象深刻，但 Google 的营销团队略过了一个重要细节。42.5 exaFLOPS 的峰值性能是基于 FP8 精度计算的，而 El Cap 在 HPC 专用的 LINPACK 基准测试中实现的 1.74 exaFLOPS 是基于 FP64 精度。实际上，El Cap 的理论峰值性能接近 2.74 FP64 exaFLOPS。

如果换算成 FP8 精度，这台由 AMD 驱动的 HPE-Cray 超级计算机在密集工作负载下的理论峰值性能约为 87 exaFLOPS，而在稀疏工作负载下可达到其两倍。Google 营销将 42.5 exaFLOPS 的 FP8 与 1.74 exaFLOPS 的 FP64 进行对比是不恰当的，实际应该是 42.5 对比至少 87，这意味着 El Capitan 的性能明显优于 9,216 个 TPU v7 芯片组成的集群。所谓 24 倍的说法在我们看来并不准确。

当我们就此询问 Google 时，一位发言人表示，云计算巨头只是在对比他们当时能找到的 El Capitan 最好的数据。这让我们不禁联想到 Gemini AI 的风格。

"我们没有 El Capitan 在 FP8 精度下的持续性能数据，"发言人告诉我们。

"我们做出这个对比的假设是基于 El Capitan 在 AI 工作负载方面展示了他们的最佳算力数据，因为他们也同样关注 AI。

虽然 El Capitan 可能支持 FP8，但在没有额外的持续性能数据的情况下，我们无法进行对比。我们不能简单地假设降低精度就能线性提升峰值性能。此外需要注意的是，Ironwood 可以通过我们的高速 Jupiter 数据中心网络扩展到超过单个集群，最多支持 400,000 个芯片或 43 个 TPU v7x 集群。"

撇开这些对比不谈，Google 最新的代号为 Ironwood 的 TPU 相比去年的 Trillium 有了重大升级。

每个 TPU 都配备了高达 192GB 的高带宽内存 (HBM)，带宽在 7.2-7.4TB/s 之间（发布公告中文字部分和图片分别引用了这两个数字）。该芯片主要面向大语言模型 (LLM) 推理设计。

如我们之前讨论过的，内存带宽是推理工作负载的主要瓶颈。更大的内存容量意味着芯片可以容纳更大的模型。在原始浮点性能方面，Google 表示每个液冷 TPU v7 能够达到 4.6 petaFLOPS 的密集 FP8 运算能力。这使其性能与 Nvidia 的 Blackwell B200 处于同一水平。

除了其标志性的张量处理引擎外，Ironwood 还配备了 Google 的 SparseCore，专门用于加速排名和推荐系统中常见的"超大规模嵌入"。

这些芯片的更多细节可以在 The Next Platform 上找到，预计将于今年晚些时候全面上市。

为了构建这些集群，每个 TPU 都配备了专门的芯片间互联 (ICI)，Google 表示其双向每链路带宽可达 1.2 terabits/s，比 Trillium 提升了 1.5 倍。

据 Google 表示，9,216 芯片的大型集群在满负载运行时将消耗约 10 兆瓦的功率。Google 没有透露每个芯片的 TDP，但这表明其功耗可能在 700W 到 1kW 之间，与同级别的 GPU 相当。虽然这听起来功耗很大，但 Google 强调这些芯片的效率仍比 2015 年第一代 TPU 提高了 30 倍，性能每瓦比去年的芯片提高了 2 倍。

来源：The Register

0赞

好文章，需要你的鼓励

Google 推出第七代 Ironwood TPU 芯片，借助 AI 进行性能对比

来源：The Register

2025

04/10

17:19

分享

点赞

英伟达发布全新小型开源模型Nemotron-Nano-9B-v2，支持推理开关控制

谷歌翻译将集成AI功能并增加游戏化学习模式

边缘AI基础设施的现实挑战与解决方案

Hugging Face：企业在不牺牲性能下降低AI成本的5种方法

阿里推出Ovis2.5：多模态大语言模型的又一重要突破

对话谷歌副总裁Karen Teo：“短剧”“AI应用”现象级出海，我们看到中国开发者的三种内核

谷歌Gemini大模型登陆甲骨文云平台

Linux的微内核替代方案？Debian/Hurd证明微内核Unix梦想仍在继续

你的每一个问题、每一条评论，我都在记录

2035年最热门的十大颠覆性产业

AI"教父"提出让AI具备母性本能引发争议

生成式AI助力MIT科学家对抗超级细菌

WordPress.com 推出免费的 AI 网站构建器

大型机在 AI 时代是否仍有一席之地？

Gemini 和 Veo AI 模型将整合在一起，DeepMind CEO Demis Hassabis 宣布

ChatGPT 获得记忆增强升级，让对话体验更进一步

AI 推理模型的兴起使基准测试成本大幅提升

Google 推出企业级 AI 智能体开发套件，助力快速原型开发和部署

Google 推出性能更快、更高效的 Gemini AI 模型

AI 时代的领导力变革：2035 年的 5 个关键启示

Google 推出第七代 Ironwood TPU 芯片，借助 AI 进行性能对比

xAI 公司推出 Grok 3 API 服务

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: