谷歌于本周二正式发布了两款各有侧重的第八代TPU芯片——一款专为训练设计,另一款专为推理优化,重新采用分体式芯片策略,以应对云计算厂商在AI硬件领域对性能与成本的差异化需求。
谷歌此前已有过TPU分体设计的尝试,第五代的V5p与V5e芯片便是典型案例,但此后的Trillium和Ironwood等系列基本回归了单一设计路线。
HFS Research分析师Phil Fersht认为,此次两款新芯片的分体设计,是谷歌将硬件与企业AI生命周期不同阶段更紧密对齐的战略举措,有望在生产环境中提升资源利用率和成本效益。
"训练与推理在经济模型、内存行为、网络需求和采购模式上的差异日益显著。客户越来越希望在模型生命周期的每个阶段都能获得最合适的性价比,而不是一款通用加速器打天下。"Fersht表示。
Forrester首席分析师Charlie Dai指出,从实际应用角度来看,能够在两款TPU之间自由选择,可以帮助企业避免将训练级别的高成本芯片用于推理密集型任务。
TrendForce分析师Fion Chiu也持相同观点,她认为成本更具优势的8i芯片将帮助企业以更低的价格部署大型模型。
Dai还补充道,对于OpenAI和Anthropic等模型提供商而言,这种芯片选择机制能够更清晰地区分训练集群与服务集群,同时保留通用工具和代码路径的复用能力,从而降低总体成本、提升集群效率,并简化模型生命周期的过渡流程。
HyperFRAME Research分析师Stephen Sopko指出,谷歌并非唯一走分体设计路线的芯片厂商,AWS同样拥有Trainium和Inferentia两款面向不同AI工作负载的独立芯片。
两款芯片的技术优势
尽管分体设计折射出算力经济学的变迁,但这两款芯片相较于前代Ironwood在技术层面也各有突破。
谷歌表示,专注训练的TPU 8t相较Ironwood,每个Pod的计算性能提升近3倍,支持更大规模的超级Pod,芯片间带宽也翻了一番。
具体而言,Ironwood在9216芯片Pod规模下可提供42.5艾次浮点运算,而TPU 8t在9600芯片规模下可扩展至121艾次浮点运算;双向扩展带宽提升至每芯片19.2 Tbps,是原来的两倍;跨机架扩展网络带宽也提升至400 Gbps,增长四倍。
Omdia首席分析师Alexander Harrowell表示,性能与机架间带宽的大幅提升,将支持比Ironwood更大规模模型的训练,并缩短训练时长。
相比之下,专注推理的TPU 8i在设计理念上与Ironwood有更大的转变——内存容量至少是后者的三倍。
TPU 8i配备了288GB高带宽内存与384MB片上SRAM。Harrowell指出,这使TPU的内存规模向领先GPU靠拢。他还表示,更大的片上SRAM有助于将活跃模型数据保持在更靠近处理器的位置,从而降低推理延迟,在模型规模和复杂度持续增长的背景下尤为重要。
Sopko认为,8i的架构调整反映出业界正逐步转向混合专家模型(MoE)和长上下文模型,这类模型未来还将继续扩大规模。
"万亿参数模型和百万Token上下文窗口在推理服务期间需要常驻内存,这就要求更大的内存容量和更大规模的Pod。"Sopko说道。
与Ironwood的256芯片Pod规模和每Pod 1.2艾次浮点运算相比,TPU 8i的Pod规模可扩展至1152芯片,每Pod算力达11.6艾次浮点运算。
此外,谷歌表示,两款新芯片相较Ironwood的系统效率也有所提升,每瓦性能提升2倍,并与谷歌基于Arm架构的Axion CPU主机实现了更紧密的集成。
谷歌还补充称,TPU 8t和8i将于今年晚些时候作为谷歌AI超级计算机平台的组成部分正式对外开放。
Q&A
Q1:谷歌TPU 8t和8i分别适合哪类AI任务?
A:TPU 8t专为模型训练设计,相较前代Ironwood提供近3倍计算性能和更高的芯片间带宽,适合大规模模型训练任务;TPU 8i则专为推理优化,配备288GB高带宽内存和更大片上SRAM,适合在生产环境中高效运行大型模型,两者分工明确,覆盖AI生命周期的不同阶段。
Q2:谷歌为什么要重新采用分体式TPU策略?
A:训练和推理在经济模型、内存需求、网络带宽和采购模式上差异越来越大,单一芯片难以兼顾两者的性价比。分体设计让企业可以按需选择,避免将高成本的训练级芯片用于推理任务,从而降低整体运营成本,提升资源利用率。
Q3:TPU 8i在内存方面有哪些具体提升?
A:TPU 8i搭载288GB高带宽内存和384MB片上SRAM,内存容量是Ironwood的至少三倍,整体规模已接近主流高端GPU。更大的片上SRAM可以让活跃模型数据更靠近处理器,有效降低推理延迟,对混合专家模型(MoE)和长上下文模型的服务尤为重要。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。