分布式训练有望解决人工智能的能耗难题

news2026/4/9 18:36:34

人工智能正面临着巨大的能源消耗挑战。这种持续增长的能源需求体现在支撑AI繁荣的数据中心产生的巨大碳足迹以及前沿AI模型训练所产生的碳排放量随时间稳步增加。难怪大型科技公司开始青睐核能设想一个由可靠、无碳能源支撑的未来。但是虽然核动力数据中心可能还需要数年时间才能实现研究和工业领域的一些人正在立即采取行动来抑制AI不断增长的能源需求。他们正在解决训练这一模型生命周期中最耗能的阶段之一重点关注去中心化。利用分布式网络重新定义AI训练去中心化将模型训练分配到独立节点网络中而不是依赖单一平台或提供商。它让计算能力可以去到能源所在的地方——无论是坐落在研究实验室中的闲置服务器还是太阳能供电家庭中的计算机。去中心化不是建造更多需要电网扩大基础设施和容量的数据中心而是利用现有来源的能源避免增加更多电力消耗。训练AI模型是一项巨大的数据中心运动需要在紧密连接的GPU集群间同步进行。但随着硬件改进难以跟上大语言模型规模的快速增长即使是大规模的单一数据中心也不再够用。科技公司正转向多个数据中心的集合力量——无论其位置如何。例如英伟达推出了Spectrum-XGS以太网用于跨规模网络它可以为跨地理分离数据中心的大规模单一作业AI训练和推理提供所需的性能。同样思科推出了其8223路由器旨在连接地理分散的AI集群。其他公司正在挖掘服务器中的闲置计算资源催生了GPU即服务业务模式的兴起。以Akash网络为例这是一个点对点云计算市场自称为数据中心的Airbnb。那些在办公室和较小数据中心拥有未使用或使用不足GPU的人注册为提供商而那些需要计算能力的人被视为租户可以在提供商中选择并租用他们的GPU。Akash联合创始人兼首席执行官Greg Osuri表示如果你看看今天的AI训练它非常依赖最新最好的GPU。幸运的是世界正在转型从仅依赖大型高密度GPU转向现在考虑较小的GPU。算法创新支撑分布式学习除了协调硬件外去中心化AI训练还需要在软件方面进行算法更改。这就是联邦学习——一种分布式机器学习形式——发挥作用的地方。它从驻留在可信实体如中央服务器中的全局AI模型的初始版本开始。麻省理工学院计算机科学与人工智能实验室(CSAIL)首席研究科学家、去中心化信息小组负责人Lalana Kagal解释说服务器将模型分发给参与组织这些组织在本地数据上训练模型并仅与可信实体共享模型权重。然后可信实体聚合权重通常通过平均将它们集成到全局模型中并将更新的模型发送回参与者。这种协作训练循环重复进行直到模型被认为完全训练完成。但分布数据和计算也有缺点。例如模型权重的持续来回交换导致高通信成本。容错是另一个问题。Osuri说AI的一个重大问题是每个训练步骤都不具备容错性。这意味着如果一个节点宕机你必须重新恢复整个批次。为了克服这些障碍谷歌DeepMind的研究人员开发了DiLoCo一种分布式低通信优化算法。DiLoCo形成了谷歌DeepMind研究科学家Arthur Douillard所称的计算岛每个岛由一组芯片组成。每个岛持有不同的芯片类型但岛内的芯片必须是同一类型。岛之间彼此解耦它们之间的知识同步偶尔发生。这种解耦意味着岛可以独立执行训练步骤而不需要经常通信芯片可以故障而不必中断剩余的健康芯片。然而团队的实验发现在八个岛之后性能递减。一个改进版本称为Streaming DiLoCo通过以流式方式跨几个步骤同步知识而无需停止通信进一步减少了带宽需求Douillard说。这种机制类似于在视频尚未完全下载时就能观看视频。在Streaming DiLoCo中当你进行计算工作时知识在后台逐渐同步他补充道。AI开发平台Prime Intellect实施了DiLoCo算法的一个变体作为其跨五个国家三大洲训练的100亿参数INTELLECT-1模型的重要组成部分。更进一步去中心化AI操作系统制造商0G Labs调整了DiLoCo来在带宽有限的分离集群网络下训练1070亿参数基础模型。与此同时流行的开源深度学习框架PyTorch将DiLoCo包含在其容错技术存储库中。Douillard说社区做了大量工程工作来采用我们的DiLoCo论文并将其集成到通过消费级互联网学习的系统中。看到我的研究如此有用我感到非常兴奋。开启可持续AI发展新路径随着硬件和软件增强到位去中心化AI训练准备好帮助解决AI的能源问题。麻省理工学院CSAIL的Kagal说这种方法提供了以更便宜、更资源高效、更节能的方式训练模型的选择。虽然Douillard承认像DiLoCo这样的训练方法可以说更复杂但它们提供了系统效率的有趣权衡。例如你现在可以使用相距很远的数据中心而无需在它们之间建立超高速带宽。Douillard补充说容错是内置的因为芯片故障的爆炸半径仅限于其计算岛。更好的是公司可以利用现有的未充分利用的处理能力而不是持续建造新的耗能数据中心。Akash大力押注这样的机会创建了其Starcluster程序。该程序的目标之一涉及利用太阳能供电的家庭并使用其中的台式机和笔记本电脑来训练AI模型。Osuri说我们想把你的家转换成一个功能齐全的数据中心。Osuri承认参与Starcluster并非易事。除了太阳能板和配备消费级GPU的设备外参与者还需要投资电池作为备用电源和冗余互联网以防止停机。Starcluster程序正在寻找将所有这些方面打包在一起并让房主更容易参与的方法包括与行业合作伙伴合作补贴电池成本。后端工作已经在进行以使家庭能够作为Akash网络的提供商参与团队希望在2027年达到目标。Starcluster程序还设想扩展到其他太阳能供电的地点如学校和当地社区场所。去中心化AI训练很有希望引导AI走向更环保可持续的未来。对Osuri来说这种潜力在于将AI移到能源所在的地方而不是将能源移到AI所在的地方。QAQ1什么是去中心化AI训练A去中心化AI训练是将模型训练分配到独立节点网络中而不是依赖单一平台或提供商。它让计算能力可以去到能源所在的地方比如研究实验室的闲置服务器或太阳能供电家庭的计算机从而避免建造更多耗能数据中心。Q2DiLoCo算法是如何工作的ADiLoCo是谷歌DeepMind开发的分布式低通信优化算法。它形成计算岛每个岛由同类型芯片组成岛之间解耦运行偶尔同步知识。这样岛可以独立训练而不需要频繁通信芯片故障也不会影响其他健康芯片。Q3Akash网络的Starcluster程序是什么AStarcluster是Akash网络推出的程序旨在将太阳能供电的家庭转换为功能齐全的数据中心。参与者需要太阳能板、配备消费级GPU的设备、备用电池和冗余互联网。该程序计划到2027年实现目标还将扩展到学校等其他太阳能供电场所。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2500297.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！