由 OpenAI 牵头,联合 AMD、博通、英特尔、微软和英伟达等科技巨头组成的联盟,近日发布了一种全新网络协议,旨在解决长期存在、并因 AI 大规模数据处理需求而日益加剧的网络拥塞问题。
这一新协议名为"多路径可靠连接"(Multipath Reliable Connection,简称 MRC),专为在超过 10 万块 GPU 的集群上训练模型而设计。其核心思路是将网络流量同时分发至数百条网络路径,而非像传统方式那样将流量集中在少数几条容易发生拥塞的链路上。
OpenAI 在宣布该项目的博客文章中写道:"网络拥塞、链路故障和设备故障是传输过程中造成延迟和抖动的最常见根源。随着集群规模的扩大,这些问题出现的频率也越来越高,处理起来也越来越困难。"
OpenAI 进一步指出,哪怕是单次故障,也可能导致训练任务崩溃,迫使系统从上一个保存的检查点重新启动,或在网络重新计算路由的过程中停滞数秒之久。这类中断不仅耗费大量 GPU 算力,也造成了严重的时间损失。
"我们运行的任务规模越大,任何一次链路抖动或故障所带来的影响就越大。这类工作负载本质上是一种'故障放大器',因此防止此类问题的发生已变得至关重要。"该公司表示。
MRC 协议由 OpenAI 主导开发,AMD、博通、英特尔、微软和英伟达均作出了重要技术贡献,整个项目由开放计算平台(OCP)联盟负责托管与协调。
英伟达在 MRC 中引入了其 Spectrum-X 以太网技术。英伟达表示,目前 MRC 已在全球部分最大规模的 AI 训练集群中投入生产使用,其中包括 OpenAI,用于训练 ChatGPT 和 Codex 等前沿大语言模型。
Spectrum-X 技术同样被应用于微软的 Fairwater 数据中心,以及甲骨文云基础设施(OCI)位于 Abilene 的数据中心(该数据中心隶属于"星际之门"项目),这两处均是专为训练和部署前沿大语言模型而打造的超大规模 AI 工厂。
MRC 通过在所有可用路径上进行负载均衡,并实时动态规避过载路径,从而实现最优的 GPU 利用率。据 OpenAI 介绍,传统网络结构在发生故障后,往往需要数秒乃至数十秒才能恢复稳定。
MRC 的这一特性,有助于在网络出现减速、拥塞、故障或其他可能干扰训练进程的情况下,始终保持最高的 GPU 利用率。此外,管理员还可通过统一的单一管理界面,对网络流量路径进行精细化的监控与管控。
OpenAI 表示,MRC 的多平面网络设计仅需两层以太网交换机,即可连接超过 10 万块 GPU,而采用标准 800 Gb/s 网络通常需要三到四层交换机。
MRC 规范已于近日通过开放计算项目(Open Compute Project)正式发布,并同步附有一篇学术研究论文。
Q&A
Q1:MRC 协议是什么?它主要解决什么问题?
A:MRC(多路径可靠连接)是由 OpenAI 联合 AMD、博通、英特尔、微软、英伟达共同开发的新型网络协议。它主要解决大规模 AI 训练集群中的网络拥塞问题,通过将流量同时分发至数百条网络路径,避免传统方式下少数链路因过载导致的延迟、抖动乃至训练任务崩溃,从而保障 GPU 的高效利用。
Q2:MRC 协议和传统网络方案相比有哪些优势?
A:相较于传统网络方案,MRC 主要有三大优势:一是故障恢复更快,传统网络故障后需数秒至数十秒恢复,MRC 可实时动态规避过载路径;二是架构更简洁,连接 10 万块以上 GPU 仅需两层以太网交换机,而传统方案需三到四层;三是管理更便捷,管理员可通过单一管理界面实现对流量路径的精细化监控与控制。
Q3:MRC 协议目前在哪些地方已经投入使用?
A:MRC 目前已在全球部分最大规模的 AI 训练集群中投入生产使用,包括 OpenAI 用于训练 ChatGPT 和 Codex 等前沿大语言模型的集群,以及微软 Fairwater 数据中心和甲骨文云基础设施 Abilene 数据中心(隶属于"星际之门"项目)。上述部署均采用了英伟达 Spectrum-X 以太网技术。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。