由 OpenAI 牵头,联合 AMD、博通、英特尔、微软和英伟达等科技巨头组成的联盟,近日发布了一种全新网络协议,旨在解决长期存在、并因 AI 大规模数据处理需求而日益加剧的网络拥塞问题。
这一新协议名为"多路径可靠连接"(Multipath Reliable Connection,简称 MRC),专为在超过 10 万块 GPU 的集群上训练模型而设计。其核心思路是将网络流量同时分发至数百条网络路径,而非像传统方式那样将流量集中在少数几条容易发生拥塞的链路上。
OpenAI 在宣布该项目的博客文章中写道:"网络拥塞、链路故障和设备故障是传输过程中造成延迟和抖动的最常见根源。随着集群规模的扩大,这些问题出现的频率也越来越高,处理起来也越来越困难。"
OpenAI 进一步指出,哪怕是单次故障,也可能导致训练任务崩溃,迫使系统从上一个保存的检查点重新启动,或在网络重新计算路由的过程中停滞数秒之久。这类中断不仅耗费大量 GPU 算力,也造成了严重的时间损失。
"我们运行的任务规模越大,任何一次链路抖动或故障所带来的影响就越大。这类工作负载本质上是一种'故障放大器',因此防止此类问题的发生已变得至关重要。"该公司表示。
MRC 协议由 OpenAI 主导开发,AMD、博通、英特尔、微软和英伟达均作出了重要技术贡献,整个项目由开放计算平台(OCP)联盟负责托管与协调。
英伟达在 MRC 中引入了其 Spectrum-X 以太网技术。英伟达表示,目前 MRC 已在全球部分最大规模的 AI 训练集群中投入生产使用,其中包括 OpenAI,用于训练 ChatGPT 和 Codex 等前沿大语言模型。
Spectrum-X 技术同样被应用于微软的 Fairwater 数据中心,以及甲骨文云基础设施(OCI)位于 Abilene 的数据中心(该数据中心隶属于"星际之门"项目),这两处均是专为训练和部署前沿大语言模型而打造的超大规模 AI 工厂。
MRC 通过在所有可用路径上进行负载均衡,并实时动态规避过载路径,从而实现最优的 GPU 利用率。据 OpenAI 介绍,传统网络结构在发生故障后,往往需要数秒乃至数十秒才能恢复稳定。
MRC 的这一特性,有助于在网络出现减速、拥塞、故障或其他可能干扰训练进程的情况下,始终保持最高的 GPU 利用率。此外,管理员还可通过统一的单一管理界面,对网络流量路径进行精细化的监控与管控。
OpenAI 表示,MRC 的多平面网络设计仅需两层以太网交换机,即可连接超过 10 万块 GPU,而采用标准 800 Gb/s 网络通常需要三到四层交换机。
MRC 规范已于近日通过开放计算项目(Open Compute Project)正式发布,并同步附有一篇学术研究论文。
Q&A
Q1:MRC 协议是什么?它主要解决什么问题?
A:MRC(多路径可靠连接)是由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发的新型网络协议。它主要解决大规模 AI 训练集群中的网络拥塞问题,通过将流量同时分发至数百条网络路径,避免传统方式下少数链路因过载导致的延迟、抖动乃至训练任务崩溃,从而保障 GPU 的高效利用。
Q2:MRC 协议和传统网络方案相比有哪些优势?
A:相较于传统网络方案,MRC 主要有三大优势:一是故障恢复更快,传统网络故障后需数秒至数十秒恢复,MRC 可实时动态规避过载路径;二是架构更简洁,连接 10 万块以上 GPU 仅需两层以太网交换机,而传统方案需三到四层;三是管理更便捷,管理员可通过单一管理界面实现对流量路径的精细化监控与控制。
Q3:MRC 协议目前在哪些地方已经投入使用?
A:MRC 目前已在全球部分最大规模的 AI 训练集群中投入生产使用,包括 OpenAI 用于训练 ChatGPT 和 Codex 等前沿大语言模型的集群,以及微软 Fairwater 数据中心和甲骨文云基础设施 Abilene 数据中心(隶属于"星际之门"项目)。上述部署均采用了英伟达 Spectrum-X 以太网技术。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。