Meta与Broadcom深化合作,联合研发多代定制AI芯片

Meta宣布扩大与博通的合作关系,联合开发多代定制AI芯片,核心围绕Meta训练与推理加速器(MTIA)路线图展开。博通将参与芯片设计、先进封装及网络互联等环节。Meta计划未来两年内推出四代新MTIA芯片,覆盖推荐系统与生成式AI工作负载。此次合作还延伸至系统级基础设施,包括高带宽以太网集群方案。分析师指出,这一举措体现超大规模云服务商"按需配芯"的趋势,有助于降低推理成本并减少对外部供应商的依赖。

Meta正在扩大与Broadcom的合作关系,双方将联合研发多代定制AI芯片,此举标志着Meta在构建大规模AI工作负载自有基础设施方面迈出了重要一步。

此次合作的核心围绕Meta训练与推理加速器(MTIA)路线图展开,Broadcom将在芯片设计、先进封装及网络互联等多个层面提供支持。Meta未披露具体财务条款。

多代芯片持续推进

此次扩大合作旨在支持多代即将发布的MTIA芯片,Meta将其定位为AI基础设施栈的核心组成部分。

Meta表示,计划在未来两年内研发并部署四代全新MTIA芯片,主要面向推荐系统和生成式AI两类工作负载。

Meta日益强调AI芯片的"组合策略",即针对不同工作负载搭配不同的加速器,而非单一依赖GPU。

这与大型云服务商的整体趋势相吻合。谷歌、亚马逊等公司多年来持续构建定制芯片,以更高效地处理内部工作负载,尤其是推理任务。

MTIA现状解析

Meta目前公开的MTIA性能数据有限,但从已有信息来看,历代产品主要定位于推理和排序工作负载,而非大规模模型训练。

2023年推出的第一代MTIA主要用于提升Meta核心应用背后推荐系统的效率,后续版本已在更广泛的推理场景中部署。

现有公开信息显示,MTIA并不打算替代GPU来承担前沿模型训练任务,因为在这一领域,灵活性与软件生态系统仍至关重要。

相比之下,MTIA芯片的设计目标是承接高并发、低变异性的工作负载,这种方式有助于提升资源利用率,并在规模化部署中降低单次推理成本。

Meta长期使用Broadcom芯片构建其基于以太网的数据中心网络,并通过开放计算项目(Open Compute Project)推崇开放式设计。随着AI工作负载规模不断扩大,双方关系已从采购延伸至联合设计,Broadcom如今参与到定制芯片、封装及系统级集成的全流程中。

从芯片到系统

此次与Broadcom的扩大合作已超越芯片本身,延伸至系统级基础设施层面,尤其涵盖网络互联与芯片封装领域。

Broadcom表示,将为定制加速器开发提供其XPU平台,并搭配基于以太网的网络技术,以支持高带宽AI集群的构建。

这一布局折射出AI基础设施领域一个日益显著的转变:制约性能的瓶颈正越来越多地集中在数据传输和互联性能上,而非单纯的算力本身。

Moor Insights & Strategy副总裁兼首席分析师Matt Kimball表示:"首先,我并不认为Meta此举是要替代GPU,关键在于多样化——在合适的时间为合适的工作负载选择合适的芯片。这一直是大型云服务商的普遍做法,我认为这一趋势不会减速。"

Kimball指出,定制芯片在推理和推荐等特定场景中最能发挥效能,因为这类工作负载行为更可预测、更易优化。他表示,GPU在灵活性、快速迭代和更广泛的模型支持方面仍具优势。

多吉瓦级基础设施建设

Meta表示,此次协议包含超过1吉瓦(GW)的初期部署承诺,并规划未来逐步扩展至多吉瓦规模。

公司未披露具体时间表,也未说明该容量与数据中心部署的对应关系。

这一规模意义重大。多吉瓦级基础设施建设不仅在芯片供应上存在制约,在供电、散热及网络架构方面同样面临严峻挑战。

以太网与系统级瓶颈

Meta选择与Broadcom基于以太网的技术路线对齐,也揭示出AI基础设施瓶颈正在发生的结构性迁移。

Kimball表示:"话题的重心正在从算力本身,转向数据移动的效率——包括芯片内部、芯片间以及跨网络的数据传输。"他特别指出Broadcom在I/O、封装和以太网络方面的技术优势,以及其推动系统级整体优化(而非单纯芯片层面提升)的能力。

他补充道,即便是微小的效率改进,在超大规模部署下也能产生显著影响,在多吉瓦级部署中尤为如此。

"在这种规模下,每瓦性能或单次推理成本的微小提升都会转化为实实在在的成本节约,"Kimball表示,"1吉瓦的建设规模本身并不能改变格局,但它释放出一个信号:定制芯片正在成为基础设施战略中不可或缺的长期组成部分。"

竞争格局

此次举措彰显了Meta加强对AI成本结构掌控、降低对外部供应商依赖的战略意图。

分析人士普遍指出,对于推理密集型工作负载而言,定制芯片是大型云服务商优化每瓦性能和总体拥有成本的有效路径。

与此同时,英伟达等竞争对手凭借成熟的软件生态系统和高度集成的硬件平台,持续主导着高端训练芯片市场。

这一格局预示着市场正走向分化:前沿模型训练领域由GPU主导,而规模化推理和生产工作负载则越来越多地由专用加速器承担。

Q&A

Q1:Meta自研的MTIA芯片主要用来做什么?

A:MTIA(训练与推理加速器)主要用于推理和排序类工作负载,而非大规模前沿模型训练。第一代MTIA于2023年推出,专为提升推荐系统效率而设计,后续版本已在更广泛的推理场景中部署。其核心定位是承接高并发、低变异性的任务,从而提升资源利用率、降低规模化部署下的单次推理成本,并非取代GPU进行灵活的模型训练。

Q2:Meta为什么选择与Broadcom合作研发定制芯片,而不是继续依赖英伟达GPU?

A:Meta并非要取代GPU,而是采取"组合策略",即针对不同工作负载选用最合适的芯片。GPU在灵活性、快速迭代和广泛模型支持上仍有优势,主导前沿训练市场。而定制芯片在推理、推荐等行为可预测的场景中更具效能,有助于优化每瓦性能和总体拥有成本。与Broadcom合作还可将能力延伸至封装、网络互联等系统级层面,进一步提升整体基础设施效率。

Q3:Meta计划部署多大规模的AI基础设施?

A:Meta表示,此次与Broadcom的协议包含超过1吉瓦(GW)的初期部署承诺,并规划长期扩展至多吉瓦规模。公司未披露具体时间表或数据中心部署细节。分析师指出,在如此庞大的规模下,供电、散热和网络架构都将面临严峻挑战,即便是效率上的微小提升,也能在成本和性能上产生显著的实际收益。

来源:DataCenterKnowledge

0赞

好文章,需要你的鼓励

2026

04/17

07:33

分享

点赞

邮件订阅