英特尔与谷歌扩大AI合作,共同应对CPU性能瓶颈

英特尔与谷歌签署多年合作协议,围绕CPU与定制基础设施处理器(IPU)展开深度协作。谷歌云将持续在全球基础设施中部署英特尔至强处理器,同时共同研发基于ASIC的IPU,以卸载网络、存储和安全功能。随着AI工作负载向智能体架构演进,CPU正从"后台支撑"转变为系统级瓶颈,IPU则有助于提升超大规模环境下的整体利用率。此次合作标志着超大规模数据中心正转向GPU、CPU与ASIC协同的异构架构。

英特尔与谷歌近日宣布扩大基础设施合作,双方签署了一项涵盖CPU和定制基础设施处理单元(IPU)的多年期协议。此举凸显了业界在GPU及其他加速器之外,重新平衡AI系统架构的迫切需求。

据悉,谷歌云将持续在其全球基础设施中部署英特尔至强处理器,同时深化基于ASIC架构的IPU联合研发,旨在将网络、存储和安全功能从主机CPU中剥离出来。

此次合作公告折射出,随着超大规模云服务商应对大规模AI系统运营复杂性,AI基础设施设计理念正在经历深刻转变。此前,英特尔已相继与英伟达生态系统和SpaceX建立合作关系,积极布局下一代计算平台的多个层级。

CPU在AI系统中重新确立核心地位

尽管加速器需求持续攀升,CPU在AI工作负载中依然扮演关键角色,尤其体现在任务编排、数据准备和系统级协调等方面。

谷歌表示,至强处理器持续应用于多种工作负载优化实例,涵盖支持AI训练协调、推理及通用计算的系统。

英特尔首席执行官陈立武在声明中表示:"AI并非仅靠加速器运行,而是依托整个系统运行。CPU和IPU是满足现代AI工作负载对性能、效率和灵活性需求的核心所在。"

这一表述契合了业界日益形成的共识:尽管GPU在模型训练乃至推理领域占据主导地位,但整体系统效率往往取决于CPU在数据管道、调度和互联开销方面的处理能力。

HyperFrame Research驻场分析师史蒂芬·索普科指出,CPU正日益成为制约整体系统性能的瓶颈,而非仅仅发挥辅助支撑作用。

"CPU已不再被视为后台基础设施,而是正在成为系统的主动瓶颈,"索普科表示,"智能体AI的兴起带来了复杂的多步骤工作负载,正在显著推高CPU需求。这类编排问题无法单靠GPU解决。"

"在纯粹围绕加速器优化的集群中,我们越来越将CPU视为系统级约束,"他补充道,"谷歌与英特尔的合作是对这一现实的又一次印证。"

Constellation Research副总裁兼首席分析师霍尔格·穆勒表示,随着AI工作负载向智能体驱动架构演进,CPU的重要性也在进一步凸显。

"在智能体调用API和业务应用的场景中,CPU最适合承担这项工作,"穆勒说,"从英伟达为新款Vera Rubin机器增配Vera CPU集群一事中也可见一斑。"

"在推理方面,GPU还是CPU更具优势,目前尚无定论——GPU在训练领域已经胜出,TPU等定制ASIC也在持续发力,"他补充道,"但有一点可以明确:谷歌需要混合处理器架构,与英特尔合作引入至强处理器是明智之举,因为至强在CIO群体中拥有良好的品牌信誉。"

IPU精准攻克基础设施瓶颈

此次扩大合作的另一重点在于定制IPU。这类芯片作为专用基础设施加速器,能够接管传统上由CPU处理的网络、存储和安全功能,旨在提升大规模环境下的资源利用率,减少资源争用。

谷歌一直在其基础设施体系中推进类似策略,CPU与IPU的深度集成有望在超大规模场景下实现更稳定可预期的性能表现。

谷歌云AI基础设施高级副总裁兼首席技术官阿明·瓦赫达特表示:"CPU和基础设施加速依然是AI系统的基石,贯穿从训练编排到推理和部署的全过程。"

索普科认为,IPU的实际效果在很大程度上取决于系统瓶颈的具体位置。

"我们的判断是:取决于瓶颈在哪里,"他表示,"IPU将网络、存储和安全负担从主机CPU上剥离,这一点没有问题,因为它提供的是实实在在的容量恢复,而非障眼法。"

"但如果瓶颈在于GPU内存带宽或互联延迟,IPU未必能起到决定性作用,"索普科补充道,"IPU真正发挥价值的场景是具有可预测基础设施开销的超大规模环境,而这正是谷歌的典型应用场景。"

他还表示:"对于企业级生产部署而言,利用率提升能否覆盖架构复杂度带来的成本,目前仍有待观察。"

穆勒认为,IPU在系统层面会增加一定复杂性,但这种权衡是值得的。

"从技术角度来看,这确实增加了复杂性,但性能提升和成本优化带来的收益使其物有所值,"他表示,"英特尔提供的集成方案降低了部署门槛。"

"个人电脑上的网卡芯片某种程度上也可以看作IPU,我们并不觉得它增加了多少复杂性,"穆勒补充道,"在数据中心能耗日益紧张的背景下,任何能够在不损害性能甚至提升性能的前提下提高效率的方案,都受到热烈欢迎。"

深度分析:此次合作究竟新在何处

尽管此次合作被定位为下一代AI的重要推进,但其本质更像是一次渐进演化,而非颠覆性突破。英特尔长期以来一直是谷歌的CPU供应商,而通过IPU、DPU和SmartNIC实现基础设施卸载,也已是超大规模云服务商的惯常做法。

然而,值得关注的是此次合作的叠加效应。英特尔不仅深化了与谷歌的合作,还在AI生态系统中全面布局,包括与英伟达的合作,以及通过SpaceX向天基连接等相邻领域延伸。

随着AI基础设施规模持续扩张,系统瓶颈正从原始算力向系统级低效问题转移,包括数据搬移、能耗管理和编排开销。这使得CPU和基础设施加速器重新成为降低总体拥有成本的关键抓手。

此次合作折射出业界向均衡异构架构迈进的大趋势。超大规模云服务商正在系统性优化整体架构,将GPU、CPU与ASIC有机结合,而非仅仅依赖单一类型的加速器。

Q&A

Q1:英特尔和谷歌合作开发的IPU是什么?它的主要作用是什么?

A:IPU(基础设施处理单元)是一种专用基础设施加速芯片,能够承接原本由主机CPU处理的网络、存储和安全功能。它的核心价值在于减少CPU资源争用、提升大规模环境下的资源利用率,从而改善整体系统效率。IPU最适合应用于具有可预测基础设施开销的超大规模场景,例如谷歌云的数据中心环境。

Q2:AI系统为什么还需要CPU?GPU不够用吗?

A:GPU在模型训练和推理方面占主导地位,但AI系统的整体运行还依赖CPU来处理数据管道、任务调度、编排协调等工作。尤其是在智能体AI兴起后,多步骤复杂工作负载对CPU的需求显著增加,CPU正从"后台支撑"变为"主动瓶颈",单纯依赖GPU无法解决这类编排层面的问题。

Q3:英特尔至强处理器在谷歌云中扮演什么角色?

A:谷歌云持续在全球基础设施中部署英特尔至强处理器,应用于工作负载优化实例,涵盖AI训练协调、推理以及通用计算场景。至强处理器凭借其在企业级市场的成熟品牌信誉,成为谷歌构建混合异构计算架构的重要组成部分。

来源:DataCenterKnowledge

0赞

好文章,需要你的鼓励

2026

04/10

20:49

分享

点赞

邮件订阅