OpenAI 联合科技巨头推出新网络协议,破解 AI 训练拥塞难题

OpenAI联合AMD、Broadcom、Intel、微软和英伟达等科技巨头,推出名为多路径可靠连接(MRC)的新网络协议,旨在解决大规模AI训练中的网络拥堵问题。MRC可将流量分散至数百条网络路径,支持10万张以上GPU并行训练,动态规避过载路径,显著提升GPU利用率。相比现有800Gb/s网络需要三至四层交换机,MRC仅需两层以太网交换机即可完成同等规模互联。该规范已通过开放计算项目(OCP)正式发布。

由 OpenAI 牵头,联合 AMD、博通、英特尔、微软和英伟达等科技巨头组成的联盟,近日发布了一种全新网络协议,旨在解决长期存在、并因 AI 大规模数据处理需求而日益加剧的网络拥塞问题。

这一新协议名为"多路径可靠连接"(Multipath Reliable Connection,简称 MRC),专为在超过 10 万块 GPU 的集群上训练模型而设计。其核心思路是将网络流量同时分发至数百条网络路径,而非像传统方式那样将流量集中在少数几条容易发生拥塞的链路上。

OpenAI 在宣布该项目的博客文章中写道:"网络拥塞、链路故障和设备故障是传输过程中造成延迟和抖动的最常见根源。随着集群规模的扩大,这些问题出现的频率也越来越高,处理起来也越来越困难。"

OpenAI 进一步指出,哪怕是单次故障,也可能导致训练任务崩溃,迫使系统从上一个保存的检查点重新启动,或在网络重新计算路由的过程中停滞数秒之久。这类中断不仅耗费大量 GPU 算力,也造成了严重的时间损失。

"我们运行的任务规模越大,任何一次链路抖动或故障所带来的影响就越大。这类工作负载本质上是一种'故障放大器',因此防止此类问题的发生已变得至关重要。"该公司表示。

MRC 协议由 OpenAI 主导开发,AMD、博通、英特尔、微软和英伟达均作出了重要技术贡献,整个项目由开放计算平台(OCP)联盟负责托管与协调。

英伟达在 MRC 中引入了其 Spectrum-X 以太网技术。英伟达表示,目前 MRC 已在全球部分最大规模的 AI 训练集群中投入生产使用,其中包括 OpenAI,用于训练 ChatGPT 和 Codex 等前沿大语言模型。

Spectrum-X 技术同样被应用于微软的 Fairwater 数据中心,以及甲骨文云基础设施(OCI)位于 Abilene 的数据中心(该数据中心隶属于"星际之门"项目),这两处均是专为训练和部署前沿大语言模型而打造的超大规模 AI 工厂。

MRC 通过在所有可用路径上进行负载均衡,并实时动态规避过载路径,从而实现最优的 GPU 利用率。据 OpenAI 介绍,传统网络结构在发生故障后,往往需要数秒乃至数十秒才能恢复稳定。

MRC 的这一特性,有助于在网络出现减速、拥塞、故障或其他可能干扰训练进程的情况下,始终保持最高的 GPU 利用率。此外,管理员还可通过统一的单一管理界面,对网络流量路径进行精细化的监控与管控。

OpenAI 表示,MRC 的多平面网络设计仅需两层以太网交换机,即可连接超过 10 万块 GPU,而采用标准 800 Gb/s 网络通常需要三到四层交换机。

MRC 规范已于近日通过开放计算项目(Open Compute Project)正式发布,并同步附有一篇学术研究论文。

Q&A

Q1:MRC 协议是什么?它主要解决什么问题?

A:MRC(多路径可靠连接)是由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发的新型网络协议。它主要解决大规模 AI 训练集群中的网络拥塞问题,通过将流量同时分发至数百条网络路径,避免传统方式下少数链路因过载导致的延迟、抖动乃至训练任务崩溃,从而保障 GPU 的高效利用。

Q2:MRC 协议和传统网络方案相比有哪些优势?

A:相较于传统网络方案,MRC 主要有三大优势:一是故障恢复更快,传统网络故障后需数秒至数十秒恢复,MRC 可实时动态规避过载路径;二是架构更简洁,连接 10 万块以上 GPU 仅需两层以太网交换机,而传统方案需三到四层;三是管理更便捷,管理员可通过单一管理界面实现对流量路径的精细化监控与控制。

Q3:MRC 协议目前在哪些地方已经投入使用?

A:MRC 目前已在全球部分最大规模的 AI 训练集群中投入生产使用,包括 OpenAI 用于训练 ChatGPT 和 Codex 等前沿大语言模型的集群,以及微软 Fairwater 数据中心和甲骨文云基础设施 Abilene 数据中心(隶属于"星际之门"项目)。上述部署均采用了英伟达 Spectrum-X 以太网技术。

来源:Networkworld

0赞

好文章,需要你的鼓励

2026

05/13

09:05

分享

点赞

邮件订阅