OpenAI联合多家科技巨头发布了一项名为多路径可靠连接(MRC)的全新网络协议,旨在防止网络拥塞和硬件故障拖慢大规模AI集群的运行效率,这一举措也凸显了网络已成为超大规模AI基础设施的核心瓶颈所在。
MRC协议能够将流量同时分散至数百条网络路径,而非依赖容易造成瓶颈的传统固定路由方案,从而有效应对大型GPU集群内部的拥堵问题。
该协议由OpenAI联合AMD、博通、英特尔、微软和英伟达共同开发,并已贡献给开放计算项目(OCP)。OpenAI表示,MRC已集成至新兴的800Gb/s网络接口之中。
此次发布让外界得以清晰窥见前沿AI系统在基础设施层面所面临的挑战——在模型训练过程中,哪怕一次微小的数据传输延迟,都可能导致数千块GPU因等待同步而陷入空转。
OpenAI在技术博文中写道:"网络拥塞、链路故障和设备故障是传输延迟与抖动最常见的根源。随着集群规模不断扩大,这些问题会愈发频繁,也愈难解决。"
应对AI集群性能下滑
大型AI训练系统高度依赖加速器之间的精密同步通信。网络结构中哪怕出现微小延迟,都可能让造价高昂的GPU陷入闲置,等待处理速度较慢的节点追上进度——业界将这一现象称为"掉队效应"。
OpenAI表示,MRC通过在数百条可用路径上动态分发数据包,并在微秒级别内绕开故障链路重新路由,从而有效降低这类延迟。
HyperFrame Research网络与基础设施研究主管兼副总裁Ron Westfall指出,这一协议标志着行业正在从依赖静态路径和孤立连接的传统网络架构加速转型。
"OpenAI将整个AI网络结构视为一个统一的流动系统,而非一系列孤立的连接,"Westfall说道。
他表示,随着AI集群规模持续扩大,超大规模数据中心运营商越来越将可预期的低延迟和高韧性列为优先目标。
"这一趋势表明,随着AI集群向百万GPU级别迈进,行业正在主推一种专门为突破尾延迟和拥塞瓶颈而设计的增强型以太网架构,而现有网络标准在这方面的优化能力相当有限,"他说。
该协议依托多平面网络架构和基于SRv6的源路由机制,允许网络接口卡将路由决策直接编码至数据包头部,而无需完全依赖交换机层面的路由逻辑。OpenAI表示,这种方式有助于绕开拥塞路径,并在硬件故障时简化重路由流程。
以太网加速崛起
此次发布恰逢业界围绕AI网络基础设施未来走向展开激烈博弈之际。
长期以来,英伟达的InfiniBand技术凭借低延迟和高度集成的性能优势,主导着大规模AI训练环境。但随着AI部署规模持续扩大,超大规模数据中心和云服务商正越来越多地转向基于以太网的替代方案。
Dell'Oro Group副总裁Sameh Boujelbene表示,OpenAI此次的举措进一步强化了以太网在超大规模AI基础设施中的地位。
"OpenAI的MRC工作有力印证了超大规模数据中心运营商正在加大对以太网AI网络的投入,尤其是在集群规模迈向10万至50万块GPU以上的背景下,"Boujelbene说。
"历史上,超大规模训练集群一直由英伟达的InfiniBand主导,其低延迟和紧耦合性能广受青睐,但以太网正在快速追赶,"她补充道。
Boujelbene表示,这一转变已在市场数据中有所体现。"2025年,以太网在AI后端网络中的销量和出货量已大幅超越InfiniBand,"她说。
Westfall认为,OpenAI的方案试图将InfiniBand级别的性能与以太网的运营灵活性及生态体系规模相结合。"在我看来,这种数据包分发方式兼具InfiniBand的无损传输特性与无状态全局IPv6标准的灵活性,"他说。
AMD在支持该项目的声明中也持相同立场。"在GPU和CPU持续驱动算力的同时,制约AI扩展的真正瓶颈在于网络,"AMD网络技术解决方案事业部工程副总裁Krishna Doddapaneni表示。
OpenAI将该协议贡献给OCP,同样表明其有意推动这项技术走向更广泛的行业应用,而非将其作为专有技术保留。Westfall表示,加入OCP有助于超大规模数据中心运营商降低对封闭网络技术栈的依赖,同时提升大型AI工厂的运营韧性。"这一转变能够推动高性价比的超大规模以太网硬件的广泛部署,并通过构建自愈网络来简化运营管理,即便发生硬件故障,也能维持GPU的峰值利用率,"他说。
星际之门项目的规模诉求
此次网络协议发布,恰逢OpenAI全面加速推进Stargate基础设施建设之际。
OpenAI近期宣布,其已在原定2029年目标之前,提前完成逾10吉瓦AI基础设施容量的部署,仅过去90天内便新增超过3吉瓦,AI算力需求持续旺盛。
如此庞大的规模,正在将GPU之外的基础设施压力逐一暴露,涵盖供电、散热、网络可靠性以及超大规模加速器集群的同步开销等诸多方面。
OpenAI将MRC定位为提升前沿级系统整体利用效率的更宏观举措的一部分——因为GPU一旦陷入空转,训练成本便会迅速膨胀。
此次发布表明,网络正成为下一代AI基础设施竞争的核心战场,尤其是随着超大规模数据中心运营商持续向更大规模的集群迈进,微小的网络中断都可能引发连锁反应,演变为重大的算力损耗。
Q&A
Q1:MRC协议是什么?它如何解决AI集群中的网络拥塞问题?
A:MRC(多路径可靠连接)是OpenAI联合AMD、博通、英特尔、微软和英伟达共同开发的网络协议。它通过将流量同时分散至数百条网络路径,并能在微秒级别内绕开故障链路进行重路由,从而有效降低大型GPU集群中因网络拥塞和硬件故障引发的延迟问题。该协议依托多平面网络架构和SRv6源路由机制,允许网卡直接在数据包头部编码路由决策,无需完全依赖交换机路由逻辑,目前已集成至800Gb/s网络接口。
Q2:以太网能替代InfiniBand成为AI训练集群的主流网络方案吗?
A:从市场趋势来看,以太网正在快速追赶InfiniBand。Dell'Oro Group数据显示,2025年以太网在AI后端网络中的销量和出货量已大幅超越InfiniBand。OpenAI的MRC协议正是这一趋势的有力佐证——该方案试图兼顾InfiniBand的无损传输性能与以太网的运营灵活性,为超大规模AI集群提供更具成本效益的组网选择。但两者目前仍处于并行竞争阶段,尚未出现完全替代。
Q3:OpenAI为什么要将MRC协议贡献给开放计算项目(OCP)?
A:OpenAI将MRC贡献给OCP,目的是推动该协议走向更广泛的行业应用,而非将其作为专有技术保留。这一举措有助于超大规模数据中心运营商降低对封闭网络技术栈的依赖,同时推动高性价比以太网硬件的规模化部署。通过开放标准化路径,MRC有望在更大范围内帮助AI基础设施构建自愈网络,维持GPU峰值利用率,降低整体训练成本。
好文章,需要你的鼓励
Kollmorgen发布NDC布局助手软件工具,专为工厂和仓库中的自动导引车(AGV)及自主移动机器人(AMR)的路线规划与优化而设计。该工具通过分段分析路线,帮助工程师在系统部署前识别瓶颈与低效环节,提供行驶时间、车速及优化潜力等关键数据,并以可视化方式标注问题区域,从而缩短布局设计与验证周期。Kollmorgen表示,该工具未来还将融入AI驱动的优化能力。
这篇由加州大学圣地亚哥分校等六所机构联合发布的综述(arXiv:2605.02913,2026年4月),首次系统梳理了大型语言模型强化学习训练中长期被忽视的轨迹设计问题,提出了GFCR四模块框架(生成、过滤、控制、回放),覆盖数学、代码、多模态和智能代理等多个应用场景,并附有实用的故障诊断手册,为AI训练工程师提供系统性的方法论指导。
现代仓储已从幕后走向前台,配送速度成为品牌竞争核心。面对次日达甚至两小时送达的市场压力,领先履约中心借鉴敏捷开发理念,以周为单位迭代代码、机器人与工作流程。IoT信标、边缘计算与视觉识别模块构建双层架构,实现厘米级货盘追踪与低延迟决策。人机协作模式让员工从重体力劳动转向异常处理与数据分析,拣选准确率突破99%。同时,自动化系统实时采集碳排放数据,在提速的同时实现可量化的减排目标。
中国科学技术大学与FrameX.AI联合提出Stream-R1框架,针对AI视频生成蒸馏训练中"一视同仁"的核心缺陷,引入奖励模型对训练样本进行双重加权:在样本层面根据质量分数筛选可靠的学习信号,在像素与帧层面通过梯度显著性热力图集中优化最需改进的区域,使4步快速学生模型在VBench多项指标上超越慢速多步教师模型,推理速度提升30倍且不增加任何额外计算开销。