OpenAI推出多路径网络协议MRC,破解大规模AI集群传输瓶颈

OpenAI联合AMD、Broadcom、Intel、微软和英伟达,推出名为多路径可靠连接(MRC)的新型网络协议,并将其贡献给开放计算项目(OCP)。该协议通过同时将数据包分散至数百条网络路径,并在微秒级内绕过故障节点,有效解决大规模GPU集群中因网络拥塞和硬件故障导致的训练停滞问题。MRC已集成至800Gb/s网络接口,标志着以太网在超大规模AI基础设施中加速取代InfiniBand的趋势。

OpenAI联合多家科技巨头发布了一项名为多路径可靠连接(MRC)的全新网络协议,旨在防止网络拥塞和硬件故障拖慢大规模AI集群的运行效率,这一举措也凸显了网络已成为超大规模AI基础设施的核心瓶颈所在。

MRC协议能够将流量同时分散至数百条网络路径,而非依赖容易造成瓶颈的传统固定路由方案,从而有效应对大型GPU集群内部的拥堵问题。

该协议由OpenAI联合AMD、博通、英特尔、微软和英伟达共同开发,并已贡献给开放计算项目(OCP)。OpenAI表示,MRC已集成至新兴的800Gb/s网络接口之中。

此次发布让外界得以清晰窥见前沿AI系统在基础设施层面所面临的挑战——在模型训练过程中,哪怕一次微小的数据传输延迟,都可能导致数千块GPU因等待同步而陷入空转。

OpenAI在技术博文中写道:"网络拥塞、链路故障和设备故障是传输延迟与抖动最常见的根源。随着集群规模不断扩大,这些问题会愈发频繁,也愈难解决。"

应对AI集群性能下滑

大型AI训练系统高度依赖加速器之间的精密同步通信。网络结构中哪怕出现微小延迟,都可能让造价高昂的GPU陷入闲置,等待处理速度较慢的节点追上进度——业界将这一现象称为"掉队效应"。

OpenAI表示,MRC通过在数百条可用路径上动态分发数据包,并在微秒级别内绕开故障链路重新路由,从而有效降低这类延迟。

HyperFrame Research网络与基础设施研究主管兼副总裁Ron Westfall指出,这一协议标志着行业正在从依赖静态路径和孤立连接的传统网络架构加速转型。

"OpenAI将整个AI网络结构视为一个统一的流动系统,而非一系列孤立的连接,"Westfall说道。

他表示,随着AI集群规模持续扩大,超大规模数据中心运营商越来越将可预期的低延迟和高韧性列为优先目标。

"这一趋势表明,随着AI集群向百万GPU级别迈进,行业正在主推一种专门为突破尾延迟和拥塞瓶颈而设计的增强型以太网架构,而现有网络标准在这方面的优化能力相当有限,"他说。

该协议依托多平面网络架构和基于SRv6的源路由机制,允许网络接口卡将路由决策直接编码至数据包头部,而无需完全依赖交换机层面的路由逻辑。OpenAI表示,这种方式有助于绕开拥塞路径,并在硬件故障时简化重路由流程。

以太网加速崛起

此次发布恰逢业界围绕AI网络基础设施未来走向展开激烈博弈之际。

长期以来,英伟达的InfiniBand技术凭借低延迟和高度集成的性能优势,主导着大规模AI训练环境。但随着AI部署规模持续扩大,超大规模数据中心和云服务商正越来越多地转向基于以太网的替代方案。

Dell'Oro Group副总裁Sameh Boujelbene表示,OpenAI此次的举措进一步强化了以太网在超大规模AI基础设施中的地位。

"OpenAI的MRC工作有力印证了超大规模数据中心运营商正在加大对以太网AI网络的投入,尤其是在集群规模迈向10万至50万块GPU以上的背景下,"Boujelbene说。

"历史上,超大规模训练集群一直由英伟达的InfiniBand主导,其低延迟和紧耦合性能广受青睐,但以太网正在快速追赶,"她补充道。

Boujelbene表示,这一转变已在市场数据中有所体现。"2025年,以太网在AI后端网络中的销量和出货量已大幅超越InfiniBand,"她说。

Westfall认为,OpenAI的方案试图将InfiniBand级别的性能与以太网的运营灵活性及生态体系规模相结合。"在我看来,这种数据包分发方式兼具InfiniBand的无损传输特性与无状态全局IPv6标准的灵活性,"他说。

AMD在支持该项目的声明中也持相同立场。"在GPU和CPU持续驱动算力的同时,制约AI扩展的真正瓶颈在于网络,"AMD网络技术解决方案事业部工程副总裁Krishna Doddapaneni表示。

OpenAI将该协议贡献给OCP,同样表明其有意推动这项技术走向更广泛的行业应用,而非将其作为专有技术保留。Westfall表示,加入OCP有助于超大规模数据中心运营商降低对封闭网络技术栈的依赖,同时提升大型AI工厂的运营韧性。"这一转变能够推动高性价比的超大规模以太网硬件的广泛部署,并通过构建自愈网络来简化运营管理,即便发生硬件故障,也能维持GPU的峰值利用率,"他说。

星际之门项目的规模诉求

此次网络协议发布,恰逢OpenAI全面加速推进Stargate基础设施建设之际。

OpenAI近期宣布,其已在原定2029年目标之前,提前完成逾10吉瓦AI基础设施容量的部署,仅过去90天内便新增超过3吉瓦,AI算力需求持续旺盛。

如此庞大的规模,正在将GPU之外的基础设施压力逐一暴露,涵盖供电、散热、网络可靠性以及超大规模加速器集群的同步开销等诸多方面。

OpenAI将MRC定位为提升前沿级系统整体利用效率的更宏观举措的一部分——因为GPU一旦陷入空转,训练成本便会迅速膨胀。

此次发布表明,网络正成为下一代AI基础设施竞争的核心战场,尤其是随着超大规模数据中心运营商持续向更大规模的集群迈进,微小的网络中断都可能引发连锁反应,演变为重大的算力损耗。

Q&A

Q1:MRC协议是什么?它如何解决AI集群中的网络拥塞问题?

A:MRC(多路径可靠连接)是OpenAI联合AMD、博通、英特尔、微软和英伟达共同开发的网络协议。它通过将流量同时分散至数百条网络路径,并能在微秒级别内绕开故障链路进行重路由,从而有效降低大型GPU集群中因网络拥塞和硬件故障引发的延迟问题。该协议依托多平面网络架构和SRv6源路由机制,允许网卡直接在数据包头部编码路由决策,无需完全依赖交换机路由逻辑,目前已集成至800Gb/s网络接口。

Q2:以太网能替代InfiniBand成为AI训练集群的主流网络方案吗?

A:从市场趋势来看,以太网正在快速追赶InfiniBand。Dell'Oro Group数据显示,2025年以太网在AI后端网络中的销量和出货量已大幅超越InfiniBand。OpenAI的MRC协议正是这一趋势的有力佐证——该方案试图兼顾InfiniBand的无损传输性能与以太网的运营灵活性,为超大规模AI集群提供更具成本效益的组网选择。但两者目前仍处于并行竞争阶段,尚未出现完全替代。

Q3:OpenAI为什么要将MRC协议贡献给开放计算项目(OCP)?

A:OpenAI将MRC贡献给OCP,目的是推动该协议走向更广泛的行业应用,而非将其作为专有技术保留。这一举措有助于超大规模数据中心运营商降低对封闭网络技术栈的依赖,同时推动高性价比以太网硬件的规模化部署。通过开放标准化路径,MRC有望在更大范围内帮助AI基础设施构建自愈网络,维持GPU峰值利用率,降低整体训练成本。

来源:DataCenterKnowledge

0赞

好文章,需要你的鼓励

2026

05/11

14:13

分享

点赞

邮件订阅