OpenAI推出全新AI网络协议,应对大规模GPU集群挑战

OpenAI联合AMD、博通、英特尔、微软及英伟达,发布名为多路径可靠连接(MRC)的新型网络协议,并将其贡献至开放计算项目(OCP)。该协议通过将数据包动态分发至数百条网络路径,并在微秒级时间内绕过故障节点,有效缓解大规模GPU集群中的网络拥塞与"掉队效应"。MRC已集成至800Gb/s网络接口,结合SRv6源路由技术,兼顾InfiniBand的低延迟与以太网的灵活性,旨在提升超大规模AI训练系统的稳定性与GPU利用率。

OpenAI于周二发布了一项全新网络协议,旨在防止网络拥塞和硬件故障拖慢大规模AI集群的运行效率,同时也揭示了网络传输已成为超大规模AI基础设施的核心瓶颈。

该公司详细介绍了一种名为"多路径可靠连接"(Multipath Reliable Connection,MRC)的协议。与容易在大型GPU集群内部产生瓶颈的传统固定路由方案不同,MRC能够将流量同时分散到数百条网络路径上,从而有效缓解拥堵问题。

OpenAI联合AMD、博通、英特尔、微软和英伟达共同研发了这一协议,并将其贡献给开放计算项目(OCP)。目前,MRC已集成到最新的800Gb/s网络接口中。

这一公告提供了迄今为止对前沿AI系统基础设施挑战最为清晰的技术解读。在大型AI训练环境中,哪怕一次微小的数据传输延迟,都可能导致数千块正在等待同步的GPU集体陷入停滞。

OpenAI在发布的技术博客中写道:"网络拥塞、链路故障和设备故障,是导致数据传输延迟和抖动最常见的根源。随着集群规模的扩大,这些问题会愈发频繁,也愈发难以解决。"

应对AI集群性能瓶颈

大型AI训练系统高度依赖各加速器之间紧密的同步通信。网络层面上哪怕是微小的延迟,都可能让昂贵的GPU陷入空闲——它们不得不等待运行较慢的节点追上进度,这一现象在业界通常被称为"掉队效应"。

OpenAI表示,MRC协议尝试通过将数据包动态分散到数百条可用路径,并在微秒级别内绕过故障节点完成流量重路由,从而降低上述延迟的发生概率。

HyperFrame Research网络与基础设施业务负责人、副总裁Ron Westfall表示,这一协议标志着行业正在从以静态路径和独立连接为核心的传统网络架构中转型。

"OpenAI正在将整个AI网络结构视为一个统一的动态系统,而非一系列相互孤立的连接。"Westfall说道。

他指出,随着AI集群规模的持续扩大,超大规模数据中心运营商越来越将可预测的低延迟和高韧性列为优先考量。

"这一转变意味着,当AI集群向数百万块GPU的规模迈进时,业界正在优先采用专为克服尾延迟和拥塞瓶颈而设计的特定以太网增强架构,而现有网络标准在这方面的优化能力明显不足。"他说。

该协议基于多平面网络架构和SRv6源路由技术,允许网络接口卡将路由决策直接编码到数据包头部,而非完全依赖交换机层面的路由逻辑。OpenAI表示,这一方式有助于绕过拥堵路径,并在硬件故障发生时简化流量重路由的过程。

以太网势头强劲

这一公告的发布,恰逢业界围绕AI网络基础设施未来走向展开激烈争论之际。

英伟达的InfiniBand技术凭借其低延迟和高度集成的性能表现,长期主导大规模AI训练环境。然而,随着AI部署规模不断扩大,超大规模数据中心运营商和云服务提供商正越来越积极地推动以太网替代方案。

Westfall认为,OpenAI的方案试图融合InfiniBand的性能优势与以太网在运营灵活性和生态规模上的优势。

"在我看来,这种数据包分散传输方式既兼顾了InfiniBand的无损传输特性,又具备基于无状态全球IPv6标准的灵活性。"他说。

AMD在其声明中也表达了相似的观点。AMD网络技术解决方案集团企业副总裁Krishna Doddapaneni表示:"随着GPU和CPU持续驱动计算能力的提升,AI规模化扩展的真正瓶颈在于网络层面。"

OpenAI选择将该协议贡献给OCP,也传递出一个明确信号:该公司希望推动这项技术走向更广泛的行业采用,而非将其作为专有技术封闭运营。

Westfall表示,加入OCP有助于超大规模运营商降低对封闭网络协议栈的依赖,同时提升大型AI工厂的运营韧性。"这一转变有助于部署具有成本效益的百亿级以太网硬件,"他说,"同时通过构建自愈网络,在硬件故障发生时仍能保持GPU的峰值利用率,从而简化运营管理。"

Stargate项目的规模挑战

上述网络协议的发布,正值OpenAI全力推进其Stargate基础设施计划之际。

OpenAI近期宣布,其已确保的AI基础设施容量超过10吉瓦,提前完成原定于2029年实现的目标,过去90天内新增容量超过3吉瓦,而AI算力需求仍在持续攀升。

这一体量开始暴露出超越GPU本身的基础设施压力,涵盖供电、散热、网络可靠性,以及大规模加速器集群的同步开销等多个维度。

OpenAI将MRC定位为提升前沿规模系统整体利用效率的重要举措之一——在这些系统中,GPU的闲置状态会迅速推高训练成本。

这一公告也再次印证:网络正在成为下一代AI基础设施竞争的核心战场。尤其当超大规模运营商将集群规模推向新高时,小规模的网络中断都可能引发连锁反应,最终演变为大规模的算力效率损失。

Q&A

Q1:MRC协议是什么?它如何解决GPU集群中的网络拥塞问题?

A:MRC(多路径可靠连接)是OpenAI联合AMD、英伟达等多家公司共同研发的新型网络协议。它通过将流量同时分散到数百条网络路径,替代传统的固定路由方式,从而有效缓解大型GPU集群内部的网络拥塞。此外,MRC能在微秒级别内绕过故障节点完成流量重路由,大幅降低因网络延迟导致GPU空闲的"掉队效应",已集成于最新的800Gb/s网络接口中。

Q2:MRC协议和英伟达InfiniBand技术相比有什么优势?

A:英伟达InfiniBand凭借低延迟和高度集成的性能长期主导AI训练网络,但生态封闭、运营灵活性有限。MRC基于以太网架构,结合SRv6源路由技术,试图兼顾InfiniBand的无损传输性能与以太网在运营灵活性、生态规模上的优势。分析人士认为,MRC有助于超大规模运营商降低对封闭网络协议栈的依赖,并以更低成本部署百亿级以太网硬件。

Q3:OpenAI为什么要将MRC协议贡献给开放计算项目(OCP)?

A:OpenAI将MRC贡献给OCP,是为了推动该技术走向更广泛的行业采用,避免其成为封闭的专有技术。加入OCP后,其他厂商和超大规模数据中心运营商可以基于这一标准进行开发和部署,有助于形成统一的行业规范,降低对特定封闭网络协议栈的依赖,同时提升整个AI基础设施生态的运营韧性和互操作性。

来源:DataCenterKnowledge

0赞

好文章,需要你的鼓励

2026

05/11

14:20

分享

点赞

邮件订阅