在周三的 Cloud Next 大会上,Google 宣布其第七代 Tensor Processing Units (TPU) 即将向云端客户开放租用,可选择 256 芯片或 9,216 芯片的集群方案。
Google 打趣地表示,配备 9,216 个自研 AI 加速器的集群可以提供 42.5 exaFLOPS 的算力,是目前全球最强公开超级计算机——美国的 El Capitan (1.7 exaFLOPS) 的 24 倍算力。
这个数据听起来令人印象深刻,但 Google 的营销团队略过了一个重要细节。42.5 exaFLOPS 的峰值性能是基于 FP8 精度计算的,而 El Cap 在 HPC 专用的 LINPACK 基准测试中实现的 1.74 exaFLOPS 是基于 FP64 精度。实际上,El Cap 的理论峰值性能接近 2.74 FP64 exaFLOPS。
如果换算成 FP8 精度,这台由 AMD 驱动的 HPE-Cray 超级计算机在密集工作负载下的理论峰值性能约为 87 exaFLOPS,而在稀疏工作负载下可达到其两倍。Google 营销将 42.5 exaFLOPS 的 FP8 与 1.74 exaFLOPS 的 FP64 进行对比是不恰当的,实际应该是 42.5 对比至少 87,这意味着 El Capitan 的性能明显优于 9,216 个 TPU v7 芯片组成的集群。所谓 24 倍的说法在我们看来并不准确。
当我们就此询问 Google 时,一位发言人表示,云计算巨头只是在对比他们当时能找到的 El Capitan 最好的数据。这让我们不禁联想到 Gemini AI 的风格。
"我们没有 El Capitan 在 FP8 精度下的持续性能数据,"发言人告诉我们。
"我们做出这个对比的假设是基于 El Capitan 在 AI 工作负载方面展示了他们的最佳算力数据,因为他们也同样关注 AI。
虽然 El Capitan 可能支持 FP8,但在没有额外的持续性能数据的情况下,我们无法进行对比。我们不能简单地假设降低精度就能线性提升峰值性能。此外需要注意的是,Ironwood 可以通过我们的高速 Jupiter 数据中心网络扩展到超过单个集群,最多支持 400,000 个芯片或 43 个 TPU v7x 集群。"
撇开这些对比不谈,Google 最新的代号为 Ironwood 的 TPU 相比去年的 Trillium 有了重大升级。
每个 TPU 都配备了高达 192GB 的高带宽内存 (HBM),带宽在 7.2-7.4TB/s 之间(发布公告中文字部分和图片分别引用了这两个数字)。该芯片主要面向大语言模型 (LLM) 推理设计。
如我们之前讨论过的,内存带宽是推理工作负载的主要瓶颈。更大的内存容量意味着芯片可以容纳更大的模型。在原始浮点性能方面,Google 表示每个液冷 TPU v7 能够达到 4.6 petaFLOPS 的密集 FP8 运算能力。这使其性能与 Nvidia 的 Blackwell B200 处于同一水平。
除了其标志性的张量处理引擎外,Ironwood 还配备了 Google 的 SparseCore,专门用于加速排名和推荐系统中常见的"超大规模嵌入"。
这些芯片的更多细节可以在 The Next Platform 上找到,预计将于今年晚些时候全面上市。
为了构建这些集群,每个 TPU 都配备了专门的芯片间互联 (ICI),Google 表示其双向每链路带宽可达 1.2 terabits/s,比 Trillium 提升了 1.5 倍。
据 Google 表示,9,216 芯片的大型集群在满负载运行时将消耗约 10 兆瓦的功率。Google 没有透露每个芯片的 TDP,但这表明其功耗可能在 700W 到 1kW 之间,与同级别的 GPU 相当。虽然这听起来功耗很大,但 Google 强调这些芯片的效率仍比 2015 年第一代 TPU 提高了 30 倍,性能每瓦比去年的芯片提高了 2 倍。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。