DeepMind 致力于大型 AI 模型的分布式训练研究

DeepMind 研究人员提出了一种名为 Streaming DiLoCo 的新方法，可以在分布式环境中高效训练大型 AI 模型。该方法通过优化参数同步和通信策略，显著降低了带宽需求，同时保持了模型性能。这一突破有望推动 AI 开发的民主化，使更多机构能够参与大规模模型训练。

随着 DeepSeek 发布带来的震动逐渐平息，其留下的启示或许是值得探索替代性训练方法。DeepMind 研究人员表示，他们已经找到了一种让分布式训练更加高效的方法。

DeepSeek 在美国科技行业引起了一定程度的恐慌，因为它的 AI 性能似乎可以与 OpenAI 和 Meta 的产品相媲美，同时该公司声称使用较少的 Nvidia GPU 以更低的成本训练其模型（这一说法受到多方质疑）。

尽管许多人对这些说法持怀疑态度，但该模型的发布促使科技行业重新思考投入数百亿美元用于训练规模越来越大的模型的策略，这些模型使用装满昂贵 GPU 的大型 AI 服务器集群，所有设备都被安置在能耗巨大的数据中心中。

Google 旗下的 DeepMind 随后发布了研究成果，讨论如何在理论上可能相距遥远的计算机集群之间分布式训练拥有数十亿参数的模型，同时保持与之前相同的质量水平。

在一篇标题为"具有重叠通信的流式 DiLoCo"的在线论文中，DeepMind 研究人员在公司现有的 DiLoCo (分布式低通信训练) 方法基础上进行了多项改进，使得在"连接不良的设备群"上进行训练成为更可行的方案。

正如论文所述，问题在于大语言模型 (LLM) 的训练可能需要数万个 GPU 加速器，随着模型变得更加复杂，这个数字还在持续增加。

研究人员指出，建设和维护能够容纳如此多加速器的数据中心非常昂贵，并带来越来越复杂的工程挑战，其中最主要的就是网络互连和散热要求。

这方面的工作在其他地方也在进行，The Register 最近报道了 Nvidia 等行业巨头正在研究如何将独立的数据中心连接在一起，形成更大的虚拟数据中心，使 AI 模型能够继续扩大规模。

除了物理基础设施之外，DeepMind 解释说："从软件工程的角度来看，在每个优化步骤中协调这些设备之间梯度、参数和中间状态的传递，同时保持所有设备充分利用在技术上具有挑战性。"

在分布式 LLM 训练中，数据同步和一致性至关重要，但当涉及大型模型时，网络带宽和延迟会显著影响性能。

解决这个问题的一种方法是提升网络性能，正如 Nvidia 所关注的那样。该公司最近重点推广其 Spectrum-X 技术的功能。

DeepMind 的 DiLoCo 方法是通过创建分布式"工作者"组来放宽训练集群的协同位置要求，其中工作者之间的同步不频繁进行。这旨在使用低带宽通信链路连接而不影响学习质量。

流式 DiLoCo 提出了三项改进来进一步优化其性能：按计划同步参数子集，而不是一次性同步所有参数；将工作者计算时间与同步通信重叠；最后，将外部梯度量化调整为每个参数 4 位。据称，最后一项修改可以在不损失性能的情况下减少需要交换的数据量。

研究人员表示，论文证明了新方法能够实现与传统数据并行方法相当的训练性能，同时带宽使用量减少了 400 倍。

Anthropic 联合创始人、前 Reg 记者 Jack Clark 指出，DiLoCo 值得关注。

Clark 在其 Import AI 时事通讯中说："Prime Intellect 的 'INTELLECT-1' 100 亿参数模型是使用 OpenDiLoCo（DeepMind DiLoCo 方法的开源变体）以分布式方式训练的。"

他补充说，流式 DiLoCo 运行良好，在对模型质量影响可忽略的情况下实现了带宽需求的显著降低。

"在 1B、10B 和 100B 参数模型规模的训练模拟中，他们表明流式 DiLoCo 始终比普通 DiLoCo 更有效，随着模型规模的扩大，优势也在增加，"Clark 说。

他对这项技术可能带来的未来的展望是，无数模型正在持续训练，"每个模型都植根于数千台有时相距遥远的不同计算机"，从而将 AI 开发从拥有庞大计算资源的大公司手中民主化。

Gartner 副总裁分析师 Chirag Dekate 的观点更务实，他只是指出了分布式训练取得的进展。

"像量化（混合精度运算）和重叠（计算和通信以隐藏延迟影响）这样的技术是精心设计的工程属性，旨在克服底层加速器的限制。如今大多数加速器都在内存、内存带宽和 IO 带宽层面遇到瓶颈，"Dekate 观察到。

"使用 DeepSeek 和 Google DeepMind 采用的技术现在正成为常态。这的净效果是提高了可扩展性，同时更有效地利用底层 AI 超级计算资源。因此，模型和 AI 超级计算机都可以提供更大的可扩展性，它们一起可以提供更强大的 AI，"他表示。

但 DeepMind 的研究人员认为流式 DiLoCo 仅仅是迈向"分布式免费午餐"的第一步，还需要进一步的开发和测试。

论文指出："将联邦学习文献中的想法带入 LLM 大规模训练的新世界存在巨大机会"，但补充说"关键的下一步工作是研究像我们这样的新分布式方法应该如何在多个维度上进行调整和扩展。"

特别是，它总结说，确定如何为等效 Token 预算高效扩展 DiLoCo 副本数量的工作至关重要。

来源：The Register

0赞

好文章，需要你的鼓励

DeepMind 致力于大型 AI 模型的分布式训练研究

来源：The Register

2025

02/12

10:00

分享

点赞

“4个9”韧性的背后，西云数据以技术与运营加速企业数字化创新

Google力推手机AI功能引发关注

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: