Meta与AWS达成协议,部署数千万个Graviton核心加速智能体AI布局

Meta与亚马逊云科技(AWS)宣布达成合作,将把"数千万枚"AWS Graviton5核心纳入其计算资源组合,并可随AI能力增长持续扩展,这将使Meta成为全球最大的Graviton客户之一。此举是Meta多元化芯片战略的延伸——其同时与Nvidia、AMD、Arm合作,并自研训练和推理加速芯片。分析师指出,随着智能体AI对CPU控制平面的依赖加深,此次合作是构建异构系统的关键一步,而非对GPU的替代。

随着智能体AI竞赛不断提速,Meta正在持续扩大其算力版图。

Meta近日宣布与亚马逊云科技(AWS)达成合作协议,计划将"数千万个"AWS Graviton5核心(单芯片包含192个核心)纳入其算力资产组合,并保留随AI能力增长而扩展的选项。此举将使这家Llama模型的开发者成为全球最大的Graviton客户之一。

这一动作是Meta与几乎所有主流芯片及算力供应商建立广泛合作关系的延续。目前,Meta已与英伟达、Arm和AMD展开合作,同时也在自研内部训练与推理加速芯片。

Moor Insights & Strategy副总裁兼首席分析师Matt Kimball表示:"Meta在芯片交易以及内部研发方面的一系列动作,让人很难跟上其节奏。"他认为,这些动态"说明当前芯片的价值正处于极高水平,令人振奋。"

GPU对于大语言模型的训练至关重要,但智能体AI带来了全新的工作负载需求。Graviton5等CPU正在迎接这一挑战,能够支持实时推理、多步骤任务、前沿模型训练、代码生成和深度研究等高强度工作负载。

AWS表示,Graviton5具备处理"数十亿次交互"的能力,并能协调复杂的多阶段智能体任务。该芯片基于AWS Nitro系统构建,在性能、可用性和安全性方面均有保障。

Kimball指出:"这不仅仅是关于规模扩展,更关乎对AI系统的掌控。"随着AI向持久化智能体工作负载演进,CPU的角色变得"相当关键",它作为控制平面,承担着跨加速器的编排、内存管理、调度等高强度任务。

"在智能体环境中尤为如此,因为这类工作负载的线性程度更低,状态性更强,"他补充道。因此,确保这类资源的稳定供应是顺理成章之举。

此次协议不仅深化了Meta与AWS长期以来的合作关系,也体现了Meta所倡导的基础设施"多元化策略"。Meta强调:"没有单一的芯片架构能够高效应对所有工作负载。"

为证明这一点,Meta近期相继宣布推出四款新一代MTIA训练与推理加速芯片,并与AMD签署重磅协议以获取价值6GW的CPU及AI加速器资源;同时与英伟达建立多年期合作,获取数百万张Blackwell和Rubin GPU,并将英伟达Spectrum-X以太网交换机集成至其平台;此外,Meta也是Arm最早的主要CPU客户之一。

面对这一系列动作,Info-Tech Research Group首席咨询总监Nabeel Sherif提出了一个关键问题:"他们究竟打算用这些算力做什么?"

他认为,这些资源首先将支撑Meta内部的实验与创新,同时也为Meta对外提供自有智能体AI服务奠定基础,例如将Llama AI模型以API形式面向市场开放。

"这些服务的具体形态、所依托的平台与工具,以及将向用户提供何种管控机制,目前尚不明朗,但其发展走向无疑值得持续关注,"Sherif表示。

他指出,扩大后的算力规模将支持跨架构、跨平台的多元化应用场景与实验探索。在当前供应链约束明显、新型CPU方案层出不穷的环境下,Meta将拥有更多选择空间。与AWS的协议应被视为对Arm、英伟达、AMD等平台投资的补充,而非替代。

Kimball也认同此举"毫无疑问是叠加性的",并非替代或取代。Meta不会放弃GPU或加速器,而是围绕它们构建更完整的体系。"这是在组建一套异构系统,而不是押注单一赢家,"他说,"事实上,我认为对大多数企业来说,异构性是长期成功的关键所在。"

他指出,英伟达在训练及大量推理场景中仍占主导地位,AMD在规模化应用中"越来越举足轻重"。Arm则无论通过CPU、定制芯片还是其他路径,都为Meta提供了架构层面的掌控力,而Graviton5则作为"兼顾成本与效率的通用算力层"融入这一组合之中。

更深层的战略问题在于:这是否意味着Meta正在向算力提供商转型?Kimball对此持保留态度,认为Meta大概率不会以通用云服务的方式直接与超大规模云厂商竞争。"这更多是在垂直整合其自有AI技术栈,"他表示。

此举赋予Meta更高效支撑内部工作负载的能力,同时也构筑了向外部开放更多能力的基础设施底座,无论是通过API、合作伙伴关系还是其他方式。

Kimball还指出,其中存在一个成本维度的考量。随着推理尤其是智能体系统的推理趋向持久化运行,经济逻辑正在从追求峰值浮点运算性能(FLOPS)转向关注持续效率和总拥有成本(TCO)。

Graviton5等CPU在无需加速器、但需持续运行的工作负载场景中具备良好的适配性。"在Meta这样的规模下,即便是每个工作负载的微小效率提升,累积起来也相当可观,"Kimball强调。

对于开发者和企业IT而言,信号已相当明确:AI技术栈正在走向更高程度的异构化。企业将看到CPU、GPU与专用加速器之间更紧密的耦合,工作负载将根据其行为特征(预填充与解码、无状态与有状态、突发与持久)在不同硬件间合理分配。

"这意味着基础设施决策必须更加贴近工作负载本身,"Kimball总结道,"问题的重心不再是'选哪朵云',而是'应用的哪个部分在哪里运行最高效'。"

Q&A

Q1:Meta为什么要与AWS签署Graviton5核心部署协议?

A:Meta此举是其多元化基础设施战略的一部分。随着智能体AI对工作负载的需求发生变化,GPU不再是唯一答案,Graviton5等CPU在实时推理、多步骤任务编排、内存管理等方面具有独特优势。Meta强调没有单一芯片架构能高效处理所有工作负载,因此通过与AWS合作补充通用算力层,与英伟达、AMD、Arm等形成协同互补的异构系统。

Q2:AWS Graviton5芯片在智能体AI场景中有哪些具体能力?

A:AWS Graviton5基于AWS Nitro系统构建,单芯片包含192个核心,能够处理"数十亿次交互"并协调复杂的多阶段智能体任务。在智能体AI场景中,它主要承担控制平面角色,负责编排调度、内存管理以及跨加速器的任务分配,尤其擅长处理状态性强、非线性的持久化工作负载,同时在成本与能效方面具备优势。

Q3:Meta获取大量算力资源之后会推出哪些服务?

A:目前Meta的算力扩张主要服务于内部实验与创新,但也为对外提供智能体AI服务奠定了基础。分析人士指出,Meta可能会将Llama AI模型以API形式向市场开放,提供智能体AI相关服务。不过,具体服务形态、所用平台工具及用户管控机制目前尚不明确,市场仍在持续观望其后续动向。

来源:Networkworld

0赞

好文章,需要你的鼓励

2026

04/27

08:14

分享

点赞

邮件订阅