OpenAI 联合科技巨头推出新网络协议，破解 AI 训练拥塞难题

OpenAI联合AMD、Broadcom、Intel、微软和英伟达等科技巨头，推出名为多路径可靠连接（MRC）的新网络协议，旨在解决大规模AI训练中的网络拥堵问题。MRC可将流量分散至数百条网络路径，支持10万张以上GPU并行训练，动态规避过载路径，显著提升GPU利用率。相比现有800Gb/s网络需要三至四层交换机，MRC仅需两层以太网交换机即可完成同等规模互联。该规范已通过开放计算项目（OCP）正式发布。

由 OpenAI 牵头，联合 AMD、博通、英特尔、微软和英伟达等科技巨头组成的联盟，近日发布了一种全新网络协议，旨在解决长期存在、并因 AI 大规模数据处理需求而日益加剧的网络拥塞问题。

这一新协议名为"多路径可靠连接"（Multipath Reliable Connection，简称 MRC），专为在超过 10 万块 GPU 的集群上训练模型而设计。其核心思路是将网络流量同时分发至数百条网络路径，而非像传统方式那样将流量集中在少数几条容易发生拥塞的链路上。

OpenAI 在宣布该项目的博客文章中写道："网络拥塞、链路故障和设备故障是传输过程中造成延迟和抖动的最常见根源。随着集群规模的扩大，这些问题出现的频率也越来越高，处理起来也越来越困难。"

OpenAI 进一步指出，哪怕是单次故障，也可能导致训练任务崩溃，迫使系统从上一个保存的检查点重新启动，或在网络重新计算路由的过程中停滞数秒之久。这类中断不仅耗费大量 GPU 算力，也造成了严重的时间损失。

"我们运行的任务规模越大，任何一次链路抖动或故障所带来的影响就越大。这类工作负载本质上是一种'故障放大器'，因此防止此类问题的发生已变得至关重要。"该公司表示。

MRC 协议由 OpenAI 主导开发，AMD、博通、英特尔、微软和英伟达均作出了重要技术贡献，整个项目由开放计算平台（OCP）联盟负责托管与协调。

英伟达在 MRC 中引入了其 Spectrum-X 以太网技术。英伟达表示，目前 MRC 已在全球部分最大规模的 AI 训练集群中投入生产使用，其中包括 OpenAI，用于训练 ChatGPT 和 Codex 等前沿大语言模型。

Spectrum-X 技术同样被应用于微软的 Fairwater 数据中心，以及甲骨文云基础设施（OCI）位于 Abilene 的数据中心（该数据中心隶属于"星际之门"项目），这两处均是专为训练和部署前沿大语言模型而打造的超大规模 AI 工厂。

MRC 通过在所有可用路径上进行负载均衡，并实时动态规避过载路径，从而实现最优的 GPU 利用率。据 OpenAI 介绍，传统网络结构在发生故障后，往往需要数秒乃至数十秒才能恢复稳定。

MRC 的这一特性，有助于在网络出现减速、拥塞、故障或其他可能干扰训练进程的情况下，始终保持最高的 GPU 利用率。此外，管理员还可通过统一的单一管理界面，对网络流量路径进行精细化的监控与管控。

OpenAI 表示，MRC 的多平面网络设计仅需两层以太网交换机，即可连接超过 10 万块 GPU，而采用标准 800 Gb/s 网络通常需要三到四层交换机。

MRC 规范已于近日通过开放计算项目（Open Compute Project）正式发布，并同步附有一篇学术研究论文。

Q&A

Q1：MRC 协议是什么？它主要解决什么问题？

A：MRC（多路径可靠连接）是由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发的新型网络协议。它主要解决大规模 AI 训练集群中的网络拥塞问题，通过将流量同时分发至数百条网络路径，避免传统方式下少数链路因过载导致的延迟、抖动乃至训练任务崩溃，从而保障 GPU 的高效利用。

Q2：MRC 协议和传统网络方案相比有哪些优势？

A：相较于传统网络方案，MRC 主要有三大优势：一是故障恢复更快，传统网络故障后需数秒至数十秒恢复，MRC 可实时动态规避过载路径；二是架构更简洁，连接 10 万块以上 GPU 仅需两层以太网交换机，而传统方案需三到四层；三是管理更便捷，管理员可通过单一管理界面实现对流量路径的精细化监控与控制。

Q3：MRC 协议目前在哪些地方已经投入使用？

A：MRC 目前已在全球部分最大规模的 AI 训练集群中投入生产使用，包括 OpenAI 用于训练 ChatGPT 和 Codex 等前沿大语言模型的集群，以及微软 Fairwater 数据中心和甲骨文云基础设施 Abilene 数据中心（隶属于"星际之门"项目）。上述部署均采用了英伟达 Spectrum-X 以太网技术。

来源：Networkworld

0赞

好文章，需要你的鼓励

OpenAI 联合科技巨头推出新网络协议，破解 AI 训练拥塞难题

来源：Networkworld

2026

05/13

09:05

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

CarPlay现已支持三款主流AI聊天机器人应用

Unison Energy CEO：数据中心为何转向自建供电系统

微软曾担心OpenAI倒向亚马逊并公开"诋毁"Azure

依赖AI解决问题会让人更容易放弃思考，研究揭示潜在隐患

Ace Hardware推出AI智能体助力门店员工实时服务顾客

iOS 26.5 RC 2正式发布，公开版本下周上线

苹果与英特尔达成芯片制造合作协议

CarPlay 两大新功能体验：AI 聊天与小组件升级

英特尔的回归之路比看上去更加跌宕起伏

Meta放弃开源Llama转向专有模型Muse Spark，开发者何去何从

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: