DeepMind 致力于大型 AI 模型的分布式训练研究

DeepMind 研究人员提出了一种名为 Streaming DiLoCo 的新方法,可以在分布式环境中高效训练大型 AI 模型。该方法通过优化参数同步和通信策略,显著降低了带宽需求,同时保持了模型性能。这一突破有望推动 AI 开发的民主化,使更多机构能够参与大规模模型训练。

随着 DeepSeek 发布带来的震动逐渐平息,其留下的启示或许是值得探索替代性训练方法。DeepMind 研究人员表示,他们已经找到了一种让分布式训练更加高效的方法。

DeepSeek 在美国科技行业引起了一定程度的恐慌,因为它的 AI 性能似乎可以与 OpenAI 和 Meta 的产品相媲美,同时该公司声称使用较少的 Nvidia GPU 以更低的成本训练其模型(这一说法受到多方质疑)。

尽管许多人对这些说法持怀疑态度,但该模型的发布促使科技行业重新思考投入数百亿美元用于训练规模越来越大的模型的策略,这些模型使用装满昂贵 GPU 的大型 AI 服务器集群,所有设备都被安置在能耗巨大的数据中心中。

Google 旗下的 DeepMind 随后发布了研究成果,讨论如何在理论上可能相距遥远的计算机集群之间分布式训练拥有数十亿参数的模型,同时保持与之前相同的质量水平。

在一篇标题为"具有重叠通信的流式 DiLoCo"的在线论文中,DeepMind 研究人员在公司现有的 DiLoCo (分布式低通信训练) 方法基础上进行了多项改进,使得在"连接不良的设备群"上进行训练成为更可行的方案。

正如论文所述,问题在于大语言模型 (LLM) 的训练可能需要数万个 GPU 加速器,随着模型变得更加复杂,这个数字还在持续增加。

研究人员指出,建设和维护能够容纳如此多加速器的数据中心非常昂贵,并带来越来越复杂的工程挑战,其中最主要的就是网络互连和散热要求。

这方面的工作在其他地方也在进行,The Register 最近报道了 Nvidia 等行业巨头正在研究如何将独立的数据中心连接在一起,形成更大的虚拟数据中心,使 AI 模型能够继续扩大规模。

除了物理基础设施之外,DeepMind 解释说:"从软件工程的角度来看,在每个优化步骤中协调这些设备之间梯度、参数和中间状态的传递,同时保持所有设备充分利用在技术上具有挑战性。"

在分布式 LLM 训练中,数据同步和一致性至关重要,但当涉及大型模型时,网络带宽和延迟会显著影响性能。

解决这个问题的一种方法是提升网络性能,正如 Nvidia 所关注的那样。该公司最近重点推广其 Spectrum-X 技术的功能。

DeepMind 的 DiLoCo 方法是通过创建分布式"工作者"组来放宽训练集群的协同位置要求,其中工作者之间的同步不频繁进行。这旨在使用低带宽通信链路连接而不影响学习质量。

流式 DiLoCo 提出了三项改进来进一步优化其性能:按计划同步参数子集,而不是一次性同步所有参数;将工作者计算时间与同步通信重叠;最后,将外部梯度量化调整为每个参数 4 位。据称,最后一项修改可以在不损失性能的情况下减少需要交换的数据量。

研究人员表示,论文证明了新方法能够实现与传统数据并行方法相当的训练性能,同时带宽使用量减少了 400 倍。

Anthropic 联合创始人、前 Reg 记者 Jack Clark 指出,DiLoCo 值得关注。

Clark 在其 Import AI 时事通讯中说:"Prime Intellect 的 'INTELLECT-1' 100 亿参数模型是使用 OpenDiLoCo(DeepMind DiLoCo 方法的开源变体)以分布式方式训练的。"

他补充说,流式 DiLoCo 运行良好,在对模型质量影响可忽略的情况下实现了带宽需求的显著降低。

"在 1B、10B 和 100B 参数模型规模的训练模拟中,他们表明流式 DiLoCo 始终比普通 DiLoCo 更有效,随着模型规模的扩大,优势也在增加,"Clark 说。

他对这项技术可能带来的未来的展望是,无数模型正在持续训练,"每个模型都植根于数千台有时相距遥远的不同计算机",从而将 AI 开发从拥有庞大计算资源的大公司手中民主化。

Gartner 副总裁分析师 Chirag Dekate 的观点更务实,他只是指出了分布式训练取得的进展。

"像量化(混合精度运算)和重叠(计算和通信以隐藏延迟影响)这样的技术是精心设计的工程属性,旨在克服底层加速器的限制。如今大多数加速器都在内存、内存带宽和 IO 带宽层面遇到瓶颈,"Dekate 观察到。

"使用 DeepSeek 和 Google DeepMind 采用的技术现在正成为常态。这的净效果是提高了可扩展性,同时更有效地利用底层 AI 超级计算资源。因此,模型和 AI 超级计算机都可以提供更大的可扩展性,它们一起可以提供更强大的 AI,"他表示。

但 DeepMind 的研究人员认为流式 DiLoCo 仅仅是迈向"分布式免费午餐"的第一步,还需要进一步的开发和测试。

论文指出:"将联邦学习文献中的想法带入 LLM 大规模训练的新世界存在巨大机会",但补充说"关键的下一步工作是研究像我们这样的新分布式方法应该如何在多个维度上进行调整和扩展。"

特别是,它总结说,确定如何为等效 Token 预算高效扩展 DiLoCo 副本数量的工作至关重要。

来源:The Register

0赞

好文章,需要你的鼓励

2025

02/12

10:00

分享

点赞

邮件订阅