AI数据中心与HPC集群中I/O设计挑战持续升级

随着AI应用从通用人工智能到药物研发的广泛普及,数据中心和HPC集群的I/O设计面临前所未有的挑战。设计师需要在互连协议、散热、机架设计和功耗之间寻求平衡。多芯粒封装、3D集成等先进封装技术使接口数量激增,加剧了信号完整性与热管理难题。可靠性至关重要,OCP发布的多路径可靠连接协议(MRC)等创新技术正在推动行业应对这些复杂挑战。

关键要点:

设计人员对I/O连接器和互连协议的选择,往往决定一款AI芯片能否大获成功。

I/O的权衡取舍影响气流、散热、机架设计、机架供电等芯片设计的关键环节。

可靠性至关重要,必须遵循相关标准,I/O需要冗余引脚。其他创新还包括OCP的多路径可靠连接(MRC)协议。

AI在各领域的加速普及——从通用人工智能(AGI)到药物与材料研发——正在将行业焦点从单纯追求最新制程节点的最快芯片,转向围绕海量数据高速流转而构建的整体系统架构。

系统需要在处理器、内存和互连之间保持平衡,同时还需要一定程度的统筹调度,以确保数据在正确的时间送达正确的位置。以18埃制程开发的超高速处理器,若一直等待内存数据或被低优先级任务堵塞数据通路,也只是白白浪费资源。

"你不仅需要芯片之间有海量的低延迟通信,还需要这种通信具有确定性。"Baya Systems首席解决方案架构师Saurabh Gayen说,"当你在和AI聊天机器人交流时,你不会希望一直等待它思考。你希望它能立刻与你对话,让对话流畅进行。这从根本上改变了我们对网络和I/O连接的思考方式。"

多芯片组件和先进封装技术让I/O与互连领域的决策数量成倍增加,而复杂且快速变化的市场环境又进一步加剧了这一挑战。

"采用新封装技术后,大量系统级分析和预算分析变得非常重要。"Keysight EDA高速数字设计业务负责人Hee Soo Lee表示,"在工程师层面,能够在物理层构建真正干净的信道、确保I/O以更清晰的方式传输数据,同样至关重要。这正是大量学习和适应正在发生的地方——采用新技术、EDA解决方案和工具。学习曲线很陡峭,但这是成功的核心要素:进入新市场,并在这种严峻的市场竞争中赢得份额。"

权衡取舍的平衡之道

要确保AI芯片的商业成功,必须正确平衡众多I/O方面的权衡取舍。"你所做的取舍将影响气流、散热、机架设计、机架供电等方方面面。"Cadence芯片解决方案事业群产品管理与市场营销副总裁Arif Khan说。

然而,这并非一种万能的解决方案。数据移动方式可能随时间变化,也会因工作负载不同而有所差异。

"现有工具可以提供帮助,但决策并不在微观层面。"Khan说,"智能体AI和其他AI能力正在被加入几乎所有设计流程工具中。在某些领域,这些工具已相当成熟,但基于物理的复杂AI还未完全到位。其中一些涉及非常难以解决的物理问题,包括系统实现层面的散热问题。目前已有一些应用场景,但还不足以显著提速整个流程。"

其他业内人士也持相同看法。"当今最棘手的I/O设计问题,出现在物理规律与集成经济性相互碰撞的地方。"Arteris产品管理与市场营销副总裁Andy Nightingale说,"这包括小芯片(chiplet),或2.5D/3D封装中的多芯片组件,以及推高功率密度和时钟频率的前沿计算芯片。先进封装缩短了互连距离,但也成倍增加了接口、时钟域、电源岛的数量,带来了信号/电源完整性、热梯度以及测试/调试方面更多的'未知未知'。"

异构集成只会让这些问题更加复杂。"由于存在异构接口、信号完整性约束以及快速增长的带宽需求,chiplet和3D多芯片封装带来了最严峻的I/O挑战。"ChipAgents首席执行官William Wang说,"工程师必须深入理解信号完整性、功率分配、重试机制、协议堆叠以及散热带宽权衡,因为AI正在大幅加剧芯片间的数据移动压力。"

逐一解决问题固然可行,但所有问题必须同时得到解决。"多要素的耦合是最大的挑战。"Axiomise首席执行官Ashish Darbari说,"任何单一的求解工具——无论是热、机械还是电气——都已经做得相当好了。但问题在于,这些耦合是双向的,跨越的时间和空间尺度相差数个数量级,而各工具之间天然缺乏沟通。多芯片系统中的信号完整性问题也具有同样的特征。以32、48或64 GT/s速率运行的UCIe和BoW链路,进入的是凸块(bump)区域,而凸块阻抗会随温度和机械应力发生偏移。异构集成让记录管理变得极为复杂——N2制程的计算芯片、N5制程的I/O芯片、N3制程的SRAM、N16制程的模拟模块——不同的PDK、不同的可靠性模型、不同的热膨胀系数。如何让它们在统一的工作负载下呈现一致的表现,正是大多数多芯片项目悄然损失数月时间的根源所在。"

I/O与互连设计人员需要做出一系列相互影响的选择。"Chiplet和3D不只是增加了一种集成选项,它们成倍增加了需要管理的边界数量。"Rambus硅IP产品管理高级总监Lou Ternullo说,"你现在需要决定协议在哪里终止、一致性在哪里维护、哪些流量留在封装内,哪些必须经过板级信道传输。你还要面对新的物理现实,比如热梯度、电源完整性和更紧张的信号预算,这些都会改变框图上看起来'最优'的方案。结果是,互连不再是单一的选择,而是横跨封装、板卡和机架的一系列分层决策。"

在数据中心设计中,决策是分层进行的。"一开始,你知道数据中心能获得多少电力,进而到一个机架,你有功耗预算和散热预算,这些是你的运行约束。"Khan说,"然后将预算下发给系统制造商。而各组件并非来自同一家公司,预算被分配后,构建系统的人可能从不同供应商采购多个设备。每个层级的决策方式会因技术预算、PPA以及成本的不同而有所差异。"

设备之间的距离是核心考量因素。"最主要的挑战是布线。"Vinci半导体与电子GTM负责人Satish Radhakrishnan说,"互连协议所跨越的物理距离差异极大,从封装内部的毫米级到机架内的米级不等。随着连接的设备越来越多、距离越来越近,布线变得愈加困难。设计人员必须同时管理拥塞、信号完整性、功率分配、散热影响,以及封装、板卡或机架的物理极限。"

图1:集成1.6T超级以太网、UALink和OSFP(八通道小型可插拔)I/O连接器的AI扩展架构。来源:Synopsys

I/O可靠性与冗余

在高性能计算系统中,I/O子系统和互连是故障和性能下降的重要来源。

"易故障I/O的可靠性与物理实现密切相关。"Vinci的Radhakrishnan说,"协议可以定义数据如何移动,但系统仍必须在真实的电源、散热、机械和制造条件下可靠地支撑这种移动。"

冗余设计不可或缺。"在HPC领域,硅生命周期管理等以前可有可无的功能,现在已成为必备要素。"Synopsys多芯片策略与3D IP产品管理总监Rob Kruger说,"可靠性是关键因素,我们遵循OCP(开放计算项目)的可靠性标准,同时也会添加冗余链路等特性。"

此外,I/O在组装过程中或现场使用中都可能发生故障。"假设你在做3D链路时出现了混合键合失效,这可能是组装过程中的问题。我们有冗余链路来替换这些失效部分。"Kruger解释道,"UCIe链路连接chiplet时同样如此。你可以通过冗余链路来修复制造过程中损坏的链路,也可以修复五年后现场出现的问题。软件可以对这些链路进行监控、测试和修复。"

遥测在其中扮演着重要角色。"你可能有用于监测工艺、电压、温度和信号完整性的传感器,然后将这些数据汇总并上报给网络的更高层级。"Kruger说,"如何聚合这些数据?用软件处理吗?软件没问题,但数据中心可能有数以千计的I/O都在运行软件。你也许会选择硬件优先的方式,软件作为备份。在这种情况下,与上层系统的协调又是另一个挑战。"

图2:简化的数据中心网络连接示意图,UCIe是AI数据中心I/O芯片中1.6T互连的可选方案。来源:Synopsys

面向超大模型的集群

HPC生态系统正在努力解决的问题之一,是如何让整个计算节点集群像一台单一的计算机一样运作,而I/O是其中的核心考量。

"回顾计算的演进历程,2012年之前,处理器内部集成了多个核心。"Synopsys接口IP产品管理总监Priyank Shukla说,"后来,在一个机架或服务器单元中集成了多个处理器,进一步提升了吞吐量。但ChatGPT出现后,我们意识到大量非结构化数据可以用不同的加速器来处理。你不只需要一个处理器,你需要针对特定工作负载的加速器,并且这些加速器需要相互连接。大语言模型的扩展规律——而非CMOS的规律——表明,向模型投入大量非结构化数据,就能获得训练效果极佳的模型。我们正在尝试创建一个能够像单一统一计算设施一样运作的大型集群,这与我们目前的做法截然不同。当整个集群必须像一台计算机一样运作时,你需要为每个计算节点提供内存,还需要在芯片间传递信息,这为互连和I/O及其他组件带来了不同类型的挑战。"

数据传递至关重要。"当我们谈到互连时,通常指的是物理层,或物理层上面的一层。"Shukla说,"但这些在协议层面也是最基础的。核心思路是:你可以传递数据——不只是简单的数据,而是相干内存数据——到不同的节点,而且数据量没有上限。"

统一集群可以显著提升性能。"从I/O的角度来看,这意味着你必须尽可能多地从一个芯片向外传输数据。"Shukla解释道,"限制在于,你无法在一个芯片内塞入更多计算单元,所以两个芯片必须协同工作。关键在于它们之间的通信速度。芯片的边缘面积有限,你需要在有限的'海岸线'上最大化带宽利用率。"

"海岸线密度"指的是芯片边缘每毫米可传输的数据量。"如果你有一个加速器,它的代码是矩阵乘法或TensorFlow运算,但加速器需要与其他加速器通信,所以需要I/O,这就是为什么大家会提到chiplet I/O。"Shukla解释道,"但如何集成呢?有不同的考量因素。如果将它们共同封装在一个封装内,I/O芯片位于顶部,就有机会处于芯片的正面,液冷可以为这个芯片散热。但被压在下面的基础芯片没有散热路径,这又带来了新的挑战。"

图3:数据中心中的AI连接示意图。来源:Synopsys

在AI领域,这些创新尤为必要,因为设计人员已经意识到,计算本身并不是增长的唯一制约因素。"数据移动和内存访问才是真正的问题所在,既存在于芯片内部,也存在于芯片之间。"Baya的Gayen说,"如何确保那些体积达到数GB的超大AI模型高效运行?这正是英伟达等公司大力推进机架级设计(如NVL72百亿亿次级系统)的原因。"

Gayen指出,NVL72是一个里程碑,证明了连接才是核心。"如何在GPU之间移动数据?核心理念是,你不希望只有一个GPU——你希望大量GPU协同工作,表现得像一个巨大的GPU。正是NVLink及其关联的NV交换机,使英伟达得以构建一个不只聚焦于计算的完整系统。"

从芯片架构师的角度来看,Axiomise的Darbari认为集群会带来四个实际问题:

性能与可扩展性。集群的有效性能是本地计算吞吐量与跨节点数据移动及工作同步开销的综合体现。只有当互连和软件栈能持续让计算引擎保持繁忙时,高性能集群才能实现良好的扩展。

延迟与尾部行为。一旦系统实现分布式部署,最终结果的时间不仅取决于核心和内存延迟,还取决于网络跳数、拥塞、同步开销和排队效应。小延迟在规模化场景下会迅速叠加放大。

功耗与能效。功耗成为集群级属性,而非单芯片的指标。节点设计、加速器搭配、电源管理和散热限制等方面的选择,直接影响机架密度、冷却方式以及集群的实际运营经济性。

网络作为架构的一部分。在集群中,网络不只是"管道",而是一等公民的架构要素。Darbari解释说,带宽、延迟、拓扑结构、拥塞行为和容错能力,共同决定哪些工作负载能够良好扩展以及整体效率的高低。

拥塞挑战与规范

AI时代的挑战包括:视频点播和语音指令产生的互联网、云端和数据流量,AI训练数据中心带来的新型流量,以及AI推理产生的突发性流量。

"GPU集群将处理数据,并在特定时刻交换结果,形成一种称为集体通信库(CCL)的流量模式,会产生海量流量,需要大量高速端口。"Keysight Technologies AI与网络测试解决方案产品经理Razvan Arhip在近期的一场网络研讨会上说。

面对这种流量模式,设计人员需要避免因网络流量瓶颈导致GPU闲置。"GPU很昂贵,集群也很昂贵,所以你不希望因为网络问题让它们闲置。"Arhip说,"延迟必须极低,丢包率必须趋近于零,以避免重传消耗时间。你不能再依靠数据中心中的上层协议(如TCP/传输控制协议)来解决丢包问题。你必须尽量减少导致丢包的拥塞,需要在尽可能低的层级处理丢包。这正是数据中心量化拥塞通知(DCQCN)等新型拥塞控制机制被采用的原因。超级以太网联盟(UEC)发布的链路层重传(LLR)机制也因此而来,它在第二层执行重传。这些机制以及基于信用的流量控制(CBFC),都是由该领域的大公司推动的。"

最后,为了应对大规模AI训练集群中的网络互连故障和相关I/O拥塞问题,OCP近期发布了一项开源的多路径可靠连接(MRC)协议。

根据相关技术论文,"一种新型基于RDMA(远程直接内存访问)的传输协议MRC,能够跨多条路径分散传输并主动实现负载均衡,从而消除流量碰撞问题。"此外,MRC还能降低延迟、让更多节点可在一跳内到达、降低成本和功耗、减少网络内部故障的影响,并且即使NIC到T0交换机的链路中断,也不会导致训练任务终止。

结语

在各个行业竞相提供精准、极速AI能力的激烈竞争中,HPC系统或集群的每一个环节都承受着以最优状态无故障运行的压力。

"这些芯片的研发不是为了学术目的。"Cadence的Khan说,"你希望拥有最佳性能,展示出色的系统,大量销售并获得丰厚利润,所以权衡取舍是多维度的。"

这意味着芯片架构师必须在I/O和封装方案之间权衡各种选择。"即便回到最简单的情况——一个SoC被拆解——也是有代价的。"Khan指出,"你会增加延迟,在接口处增加功耗。那么,这是否符合你的预算,还是单片集成方案更合适?"

归根结底,选择是多样的。挑战在于构建一个平衡的系统,使其在最重要的维度上为最终用户实现最优化。"说到底,设计团队都在努力解决一个多维度的问题,每种类型的I/O和先进封装都有其自身的挑战与优势。"Synopsys的Shukla说。

参考资料

[1] 多路径可靠连接(MRC)规范(开放计算项目)

[2] 基于MRC和SRv6的弹性AI超级计算机网络(AMD、博通、英特尔、微软、英伟达和OpenAI联合发布)

Q&A

Q1:I/O设计在AI芯片研发中有多重要?

A:I/O设计的重要性不亚于芯片本身的计算性能。设计人员对I/O连接器和互连协议的选择,直接影响芯片的气流管理、散热效率、机架设计和供电方案,最终决定一款AI芯片能否在商业上取得成功。随着多芯片组件和先进封装技术的普及,I/O相关的决策数量成倍增加,任何一个环节的失误都可能导致整个系统性能大打折扣。

Q2:HPC集群如何让多个计算节点像一台计算机一样协同工作?

A:核心在于高速、低延迟的互连技术。整个集群需要在处理器、内存和互连之间保持平衡,同时通过统一调度确保数据在正确时间送达正确位置。以英伟达NVL72系统为例,NVLink技术和NV交换机使大量GPU能够协同工作,表现得如同一个巨大的单一GPU,而非多个独立单元。关键挑战在于芯片"海岸线密度"——即如何在有限的芯片边缘面积上最大化数据传输带宽。

Q3:OCP发布的MRC协议能解决AI训练集群中的哪些问题?

A:MRC(多路径可靠连接)协议主要针对大规模AI训练集群中的网络互连故障和I/O拥塞问题。该协议基于RDMA传输,能够跨多条路径分散传输数据并主动进行负载均衡,从根本上消除流量碰撞。具体优势包括:降低延迟、让更多节点可在一跳内到达、降低成本与功耗、减少网络内部故障的波及范围,并且即使某条NIC链路中断,也不会导致整个AI训练任务终止。

来源:Semiconductor Engineering

0赞

好文章,需要你的鼓励

2026

06/25

18:08

分享

点赞

邮件订阅