交换机才是瓶颈:AI基础设施为何面临网络难题

随着AI工作负载快速增长,网络正成为基础设施的核心瓶颈。研究显示,顶级AI实验室在使用英伟达H100进行万亿参数训练时,模型算力利用率仅达35%-40%,高价芯片超过一半时间处于等待数据状态。网络带宽正从400Gb/s向800Gb/s乃至1.6Tb/s演进,但单纯提升互联速率并不能解决根本问题。真正的解决方案需要从工作负载出发,对交换层、互联和插件设计进行协同优化,并引入可重构光子包级交换架构,以匹配AI流量的动态特性。

AI工作负载的快速增长正在暴露基础设施中的一个关键瓶颈:网络。尽管算力已大幅提升,但网络跟上其步伐的能力却远远滞后。这种失衡导致全球最先进的芯片利用率不足,进而推高了成本和能耗。

一项针对模型浮点运算利用率(FLOPs Utilization,即衡量算力效率的关键指标)的研究显示,各大AI实验室在使用英伟达H100进行万亿参数训练时,模型浮点利用率(MFU)仅能达到35%至40%。这意味着全球最昂贵的芯片,有超过一半的时间都处于空闲状态——原因仅仅是在等待数据通过网络传输过来。

如今,连接计算节点的网络结构已成为制约AI系统实际能力的核心瓶颈。当前所做的架构决策——将各自独立设计的组件拼接在一起——将直接决定未来AI基础设施的成本、能效与市场竞争力。

带宽持续攀升,网络却难以跟上

AI训练工作负载的传输速率已从400 Gb/s跃升至800 Gb/s,而1.6 Tb/s的线路速率也已列入近期路线图,但原始链路速度只是问题的一部分。

随着集群规模扩展至数千块GPU,挑战已从原始连接速度转变为交换矩阵在协调所有节点间数据传输时的效率问题。这是一个难度更高的工程难题。

网络技术必须在2027年前实现1.6 Tb/s的线路速率。一旦错过这个时间窗口,整个生态系统将绕开你另寻他路。

这正是网络在数据中心资本支出中的占比正从目前的5%至10%上升至2030年约15%至20%的原因。网络已成为主要成本驱动因素,而非可有可无的基础设施开销。

为何仅靠互连无法解决瓶颈

最直觉的应对方式——更快的收发器、更密集的线缆、更高的线路速率——并不能解决根本问题。

随着单链路带宽的提升,网络中每个交换节点所承受的压力也随之增大。一个在400 Gb/s下勉强胜任的交换机,在800 Gb/s时会成为硬性上限。互连升级反而将瓶颈暴露在交换层,拖累了整个流程。

试图绕过这一瓶颈所带来的后果是有目共睹的:纯粹通过点对点互连来扩展集群规模、绕开交换层以回避其局限,会倍增所需的激光源数量、使功耗非线性增长,并随着每增加一个节点而叠加复杂性。

交换机无可回避,唯一的问题是它是否能表现足够出色,从而不再成为瓶颈。

分散的行业,却要构建集成的系统

AI基础设施栈是由一批各自独立优化的组件演化而来的——加速器、收发器、互连、交换机,每个组件都按照自身的性能标准开发,然后交给架构师,期望他们能将这些组件整合成可用的系统。

结果就是过度设计和资源浪费。设计人员必须在每个接口处预设最坏情况。网络结构按照一种通用工作负载来规格化,而这种工作负载与实际部署场景并不匹配。

问题的核心在此:整个行业正试图用组件级的思维去解决系统级的问题。

交换容量的浪费导致算力利用率低下,而功耗预算在设计上就已超出实际需求。万亿美元级的投资,最终产出的效能远低于应有水平。

从实践层面破解瓶颈

弥合原始算力与实际交付性能之间的差距,需要一个不同的起点。AI网络架构不应从堆砌现有最优组件出发,而应以工作负载为原点,反向推导出真正满足需求的交换、互连和中介层设计。在实践中,这意味着三件事。

跨层协同优化:中介层、互连层与交换层并非相互独立的变量。网络的整体性能取决于这些层次之间的交互方式——某一层的提升,往往会被另一层的约束所抵消。

面向特定架构的设计:AI训练、AI推理与高性能计算(HPC)工作负载在流量模式、延迟容忍度和带宽利用率上存在本质差异。针对训练设计的参考架构与针对推理设计的架构在实质上大相径庭;通用设计对两种工作负载都无法做到最优。

光子分组级可重构交换:电子分组交换机在规模化时面临硬性限制——功耗持续攀升、延迟无法压低、硅基材料触碰物理极限。光子交换提供了一条突破这些限制的路径,但交换架构本身的设计同样至关重要。电路交换适合流量可预测、持续时间较长的场景。而AI流量具有不对称性,会随着工作负载在训练与推理之间切换而动态变化。光子电路交换的重构速度不足以避免空闲周期,从而削弱了光学系统本应具备的优势。分组级可重构光子架构能够解决这一问题,在保持光介质低延迟、高带宽和高能效优势的同时,实现灵活的流量调度。

网络的未来走向

英伟达将网络提升为公司最重要的业务板块之一,是有充分理由的:算力的回报,取决于网络能否以所需速度、无延迟、无拥塞、无资源浪费地完成数据传输。

交换层必须作为一等设计要素被纳入考量。现有的交换架构是为另一个时代构建的,AI流量模式已然超出了其承载能力。

最终胜出的,将是那些以工作负载为核心向外设计、采用能够匹配AI流量特性并随其持续增长而演进的架构的参与者。其余的人,则将继续为那些无法充分利用的算力持续买单。

Q&A

Q1:AI训练中模型浮点利用率(MFU)为什么这么低?

A:研究显示,AI实验室在使用英伟达H100进行万亿参数训练时,MFU仅达到35%至40%,超过一半的时间芯片处于空闲状态。根本原因在于网络传输速度跟不上计算速度,芯片不得不等待数据通过网络到达,导致算力严重浪费。

Q2:为什么单纯升级互连线缆或收发器无法解决AI网络瓶颈?

A:单纯提升链路速度(如更快的收发器或更高线路速率)并不能解决根本问题。随着每条链路带宽的增加,网络中交换节点承受的压力同步增大,交换层会成为新的硬性上限。此外,绕开交换层采用纯点对点互连会导致激光源数量倍增、功耗非线性增长,系统复杂度也随节点数量持续叠加。

Q3:光子分组级可重构交换相比传统电子交换有哪些优势?

A:传统电子分组交换机在大规模扩展时面临功耗高、延迟无法降低、硅基材料物理极限等问题。光子交换可突破这些限制,但电路交换方式因重构速度不足,难以应对AI流量在训练和推理之间动态切换的特性。分组级可重构光子架构则能在保持低延迟、高带宽、高能效的同时,灵活响应AI工作负载的动态变化。

来源:DataCenterKnowledge

0赞

好文章,需要你的鼓励

2026

07/03

16:01

分享

点赞

邮件订阅