谷歌 Decoupled DiLoCo：革新分布式训练，高容错低带宽提升超大规模模型训练效率！

news2026/4/30 0:47:41

弹性 AI 预训练新前沿谷歌的突破弹性 AI 预训练推进到了下一个前沿这个突破来自谷歌。他们提出的 Decoupled DiLoCo 是一种革命性的分布式训练技术能利用全球各地的异构硬件进行训练即便硬件发生故障系统也不会停止运行。这项研究成果引发广泛关注论文 Leads 作者之一的 Arthur Douillard 在 X 上的分享推文获超 260 万次浏览。著名研究者、Google DeepMind 和 Google Research 首席科学家 Jeff Dean 也是作者之一他发布多条推文介绍成果还回忆了自己 14 年前的一篇一作论文《Large Scale Distributed Deep Networks》。在这篇 NeurIPS 2012 论文中他们证明大规模训练和异步技术可用于训练庞大神经网络并以容错方式将训练任务分散到数千台机器上。如今Decoupled DiLoCo 有望将这个理念变成大规模工程实践。背景规模越大故障越频繁要理解这项工作的意义需先了解现代 AI 训练的根本困境。如今训练大语言模型普遍采用 SPMD单程序多数据并行方式就像工厂里工人同步操作流水线任何一个工位出问题整条流水线就得停。小规模时没问题但集群规模扩展到数十万乃至数百万块芯片时硬件故障就成了日常。论文计算显示假设每块芯片平均一年才出一次故障240 万块芯片的集群平均故障间隔不足一分钟。现有的「弹性训练」方式检测到机器宕机后重新调整集群配置但重配置过程耗费大量时间导致集群等待期间无法有效计算。论文模拟数据显示240 万块芯片规模下即使有弹性机制实际有效计算时间Goodput也只有 40%60% 的时间集群处于等待或重配置状态浪费算力。打破「步调一致」的枷锁Decoupled DiLoCo 的核心思路是放弃让所有机器保持同步。它把训练集群拆分成若干独立的「学习器」Learner每个学习器用自己的数据独立训练不受其他学习器影响。当某个学习器出故障其余学习器继续训练。为让各个学习器协同训练出同一个模型引入了轻量级的「同步器」Syncer。同步器运行在稳定的 CPU 资源上负责周期性收集学习器参数更新、合并并推送结果。同步器不需要等所有学习器准备好只要有足够数量最小法定数的学习器汇报进度就开始工作出故障的学习器跳过恢复后再补上。此外为避免快的学习器在合并时「一票顶多票」同步器引入基于处理 token 数量的动态权重机制。还有「自适应宽限窗口」同步器达到最小法定数后会多等一会提高合并质量且等待时间不影响整体训练速度。「平衡张量分片」技术将模型参数切成碎片传输均匀分摊通信压力。实验结果故障率极高时性能几乎不掉论文用大量实验验证了 Decoupled DiLoCo 的效果。Goodput 方面模拟 240 万块芯片、平均每年每块故障一次的场景使用 8 个学习器时Decoupled DiLoCo 的 Goodput 维持在 88%而传统弹性数据并行方案只有 58%。模型质量方面对比 5B 参数稠密模型在 1 万亿 token 上的训练结果Decoupled DiLoCo 在文本和视觉基准的下游评测成绩与传统数据并行训练几乎无差距大幅提升容错能力的同时未牺牲模型质量。在混合旧式芯片TPUv5e 与 TPUv5p场景下即便最慢的学习器比最快的慢近 20%系统仍实现了与完全同步训练相当的模型质量计算利用率维持在 100%。带宽消耗方面为达到 90% 的计算利用率传统数据并行方案在 1 秒计算步长、2 个数据中心的场景下需要约 104 Gbits/s 的带宽Decoupled DiLoCo 只需要 1.7 Gbits/s采用 int4 压缩后进一步降至 0.43 Gbits/s带宽需求减少约两个数量级。更大的想象空间「捡漏」算力低带宽需求让 Decoupled DiLoCo 可以随时「捡漏」临时可用的算力资源。传统数据并行训练加入新机器需传输完整模型参数影响训练效率。而 Decoupled DiLoCo 新学习器加入时可从邻近学习器异步拉取模型状态不影响其他学习器训练。论文实验显示训练中动态加入临时学习器加入越多临时算力训练完成时间越短模型质量不受影响。同等设置下的数据并行基准额外算力需翻倍以上才体现效益。这意味着不同地区、时区、代际硬件上的零散算力也可纳入同一次训练任务。一个旧设想终于等到了工程条件Jeff Dean 回忆 2012 年论文时提到当年就设想容忍一定程度的不一致性让训练更有弹性但受限于当时的规模和工程条件未能实现。十四年后模型规模和训练集群扩大这个问题成为「必须解决」的工程问题。Decoupled DiLoCo 放弃全局强一致性用异步和分权换来可用性通过算法设计将模型质量损耗压到几乎可忽略不计。论文结尾指出随着预训练扩展到跨地区集群「可用性优先」的训练范式将从「有优势」变成「有必要」这篇论文正在重新定义下一代超大规模模型训练的基础设施。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2554131.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！