当 MoE 专家不再“内卷“：Expert Divergence Learning 如何让每个专家各司其职

news2026/3/15 17:23:35

当 150 亿参数的 MoE 模型训练完成研究者们发现了一个令人困惑的现象8 个专家网络学到的竟然是几乎相同的东西。这不是个例而是 MoE 架构长期以来的“阿喀琉斯之踵”——专家同质化Expert Homogenization。在 ICLR 2026 上阿里巴巴集团Alibaba Group研究团队发表的论文《Expert Divergence Learning for MoE-based Language Models》提出了一个优雅的解决方案通过在预训练阶段引入专家分化学习Expert Divergence Learning让每个专家在不同数据域上形成明确的功能分工从而释放 MoE 架构的真正潜力。MoE 的困境为什么专家会变得“千篇一律”Mixture-of-ExpertsMoE架构是扩展语言模型的强大技术。它的核心思想很简单不是让一个巨大的模型处理所有任务而是训练多个“专家”网络每次推理时只激活其中几个从而在保持高性能的同时大幅降低计算成本。理想情况下每个专家应该学习不同的知识和技能——比如一个专家擅长数学推理另一个专家精通文学创作第三个专家专注于代码生成。但现实往往事与愿违。研究者们发现在标准的 MoE 训练过程中专家之间会出现严重的功能重叠。这种现象被称为“专家同质化”Expert Homogenization——不同专家学到的表征和功能高度相似导致 MoE 架构退化为一个低效的集成模型无法充分发挥其设计初衷。为什么会这样传统 MoE 训练中的负载均衡损失Load-Balancing Loss是罪魁祸首之一。这个损失函数的目标是让所有专家被均匀使用避免某些专家“偷懒”。但它的实现方式是在全局层面促进路由分布的均匀性这会无意中抹平专家之间的差异让它们趋向于学习相似的模式。更深层的原因在于标准的预训练目标语言建模损失本身并不鼓励专家分化。模型只需要最小化预测误差至于是通过专家分工还是专家重复来实现训练过程并不关心。在这种情况下模型往往会选择“安全”的策略——让所有专家都学习通用的语言模式而不是冒险进行功能分化。Expert Divergence Learning让专家“各司其职”的训练策略论文提出的 Expert Divergence Learning 是一个简单但有效的解决方案。核心思想是在预训练阶段利用数据集中固有的领域标签domain labels显式地鼓励不同领域的数据激活不同的专家组合。具体来说这个方法引入了一个辅助损失函数它计算不同数据域之间专家路由分布的 Jensen-Shannon DivergenceJS 散度。JS 散度是一个衡量两个概率分布差异的指标——差异越大JS 散度越大。通过最大化不同领域数据的路由分布之间的 JS 散度模型被迫让不同领域的数据“走向”不同的专家。这个优化目标带来了两个关键效果领域间分化来自不同领域如科学文献 vs 网页文本 vs 代码的数据会被路由到不同的专家组合促使专家形成领域特化。领域内一致性来自同一领域的数据会被路由到相似的专家组合确保专家能够在特定领域内建立连贯的知识表征。这种训练策略的美妙之处在于它不需要修改模型架构不需要人工设计专家分工也不需要额外的标注数据。数据集中的领域标签如网页来源、文档类型、主题分类等是预训练语料天然具备的元信息。Expert Divergence Learning 只是巧妙地利用了这些信息引导模型自发地形成有组织的专家分工。数据质量的关键作用Fineweb-edu-chinese 的价值在 Expert Divergence Learning 的框架下数据质量的重要性被进一步放大。为什么首先领域标签的可靠性直接影响专家分化的效果。如果数据集中的领域标签混乱、不准确或者领域划分不合理那么基于这些标签的分化学习就会误导模型。高质量的数据集不仅意味着文本内容的质量还意味着元数据的准确性和领域划分的合理性。其次领域内数据的质量决定了专家能否学到有价值的专业知识。如果某个领域的数据充斥着噪音、重复内容或低质量文本那么即使专家成功地“专注”于这个领域它学到的也只是垃圾。只有当领域内数据具备足够的信息密度和教育价值时专家分化才能转化为能力提升。这正是OpenCSG Fineweb-edu-chinese数据集的价值所在。作为 MoE 模型预训练的中文语料来源Fineweb-edu-chinese 提供了高质量的领域覆盖数据集涵盖了教育、科技、专业领域等多个高价值领域每个领域都经过精心筛选和质量控制。这为 Expert Divergence Learning 提供了清晰的领域边界和可靠的领域标签。教育价值导向的内容筛选通过 csg-wukong-enterprise 模型进行的质量评分4 分以上确保了每个领域内的数据都具备高信息密度和逻辑连贯性。这让专家能够在各自领域内学到真正有用的知识而不是噪音。中文语言特性的深度优化针对中文互联网的特殊性编码问题、繁简转换、广告过滤等进行的系统化处理确保了中文数据的可用性和一致性。这对于训练中文 MoE 模型至关重要。规模与质量的平衡188M 条文档、约 420B tokens 的规模既能支撑大规模预训练又通过质量筛选避免了“规模陷阱”。在 Expert Divergence Learning 的框架下这种平衡尤为重要——数据不仅要多更要“对”。论文的实验结果验证了这一点。在使用包含 Fineweb-edu-chinese 的多领域数据集进行预训练时引入 Expert Divergence Learning 的 MoE 模型不仅在语言建模损失上表现更好在中文理解、专业能力等下游任务上也展现出显著的性能提升。更重要的是通过分析专家的路由模式研究者确认了专家确实形成了明确的领域分工——某些专家专注于处理教育类文本某些专家擅长科技内容某些专家则在通用网页文本上表现出色。实验验证分化学习带来的全面提升论文在最大 150 亿参数的 MoE 模型上进行了从零开始的预训练实验系统性地验证了 Expert Divergence Learning 的有效性。语言建模性能在相同的训练预算下使用 Expert Divergence Learning 的模型在验证集上的困惑度Perplexity持续低于基线模型。这说明专家分化确实提升了模型的语言理解能力。下游任务表现在涵盖中英文理解、推理、知识问答等多个维度的基准测试中Expert Divergence Learning 模型在绝大多数任务上都显著优于标准 MoE 模型。特别是在需要专业知识的任务上如科学问答、数学推理性能提升尤为明显。专家同质化缓解通过计算专家之间的表征相似度和路由分布差异论文证实 Expert Divergence Learning 有效地减少了专家同质化现象。不同专家的激活模式呈现出明显的差异化而不是像基线模型那样高度重叠。训练效率关键的是这些提升几乎没有增加训练成本。Expert Divergence Loss 的计算开销可以忽略不计整体训练吞吐量与标准 MoE 训练基本持平。这意味着这个方法可以无缝集成到现有的大规模预训练流程中。论文还进行了消融实验对比了不同领域粒度3 类 vs 49 类、不同损失权重、不同数据混合比例下的效果。结果显示只要领域划分合理、数据质量可靠Expert Divergence Learning 在各种配置下都能带来稳定的性能提升。这进一步证明了方法的鲁棒性和实用性。从技术创新到生态协同OpenCSG 的数据基础设施价值Expert Divergence Learning 论文的成功不仅是算法创新的胜利更是数据基础设施建设的成果。当我们深入分析这个技术突破的实现路径会发现一个清晰的逻辑链条算法创新需要高质量数据支撑→ Expert Divergence Learning 依赖于可靠的领域标签和高质量的领域内数据 → 这需要系统化的数据治理和质量控制 → OpenCSG Fineweb-edu-chinese 提供了这样的数据基础设施。这不是简单的“有数据就行”而是数据质量、数据组织方式、数据元信息的完整性共同决定了算法能否发挥作用。在 MoE 这样的复杂架构中这种依赖关系更加明显——模型的能力上限不仅取决于参数规模和训练算法更取决于训练数据的质量和多样性。OpenCSG 通过开源 Fineweb-edu-chinese 及其完整的数据处理工具链实际上是在构建一套可复现、可扩展、可持续演进的中文数据基础设施。这套基础设施的价值体现在多个层面降低研究门槛研究者不需要从零开始处理 Common Crawl 中文数据可以直接使用 Fineweb-edu-chinese 作为起点专注于算法创新。推动技术标准化一个被顶级会议论文验证的公开数据集本身就是一种质量标准的确立为中文预训练语料提供了可参照的基准。促进学术-工业协同学术界的算法创新如 Expert Divergence Learning和工业界的数据工程能力如 OpenCSG 的数据治理体系相互促进加速技术迭代。支撑生态多样性高质量的开源数据让更多小团队和研究者能够训练有竞争力的模型避免技术能力被少数资源丰富的机构垄断。这种“开源社区学术前沿”的协同模式正是推动 AI 技术健康发展的关键力量。当基础设施以开源的方式共享当数据治理的最佳实践以论文的方式传播整个生态的进步速度将远超任何一家机构的单打独斗。未来展望从专家分化到知识组织化Expert Divergence Learning 打开了一扇新的窗口让我们看到 MoE 架构的更多可能性。如果专家可以通过训练策略引导形成领域分工那么未来是否可以实现更精细的知识组织多层次的专家分化不仅在领域层面分化还可以在任务类型、推理模式、语言风格等多个维度上引导专家形成层次化的分工。动态的专家组合根据输入的复杂度和类型动态地决定激活哪些专家、以什么方式组合它们的输出实现更灵活的推理策略。可解释的专家功能通过分析专家的激活模式和路由策略我们可以更好地理解模型“知道什么”、“擅长什么”为模型的可解释性和可控性提供新的工具。持续学习与知识更新当新的领域数据到来时可以针对性地更新相关专家而不需要重新训练整个模型实现更高效的持续学习。这些方向的探索都需要高质量、多样化、组织良好的训练数据作为基础。OpenCSG Fineweb-edu-chinese 及其背后的数据治理方法论为这些未来的研究提供了坚实的起点。更重要的是随着 MoE 架构在工业界的广泛应用从 GPT-4 到 Mixtral从 DeepSeek 到各种开源模型Expert Divergence Learning 这样的训练策略有望成为标准实践。而支撑这些实践的正是像 Fineweb-edu-chinese 这样的高质量开源数据集。结语数据基础设施是 AI 进步的隐形推手当我们讨论 AI 的技术突破时往往聚焦于模型架构、训练算法、推理优化。但真正支撑这些创新的是那些不太显眼但至关重要的基础设施——高质量的数据集、标准化的评测基准、开源的工具链、活跃的社区生态。Expert Divergence Learning 论文的成功再次证明了数据质量在 AI 发展中的核心地位。一个优雅的算法创新需要高质量的数据才能发挥作用一个强大的模型架构需要多样化的数据才能展现潜力。OpenCSG 通过持续开源高质量的中文数据集Fineweb-edu-chinese、Cosmopedia-chinese、Smoltalk-chinese 等正在构建中文 AI 生态的数据基础设施。这不仅是技术贡献更是一种生态理念的体现——通过开源协作让每一个有想法的研究者和开发者都能站在高质量数据的肩膀上推动中文 AI 的共同进步。在 MoE 模型从“专家内卷”走向“各司其职”的过程中在 AI 从“堆算力”转向“拼数据算法”的范式转变中像 Fineweb-edu-chinese 这样的开源数据集正是那个不可或缺的基石。当专家不再同质化当数据成为第一性原理AI 的未来才真正充满可能。****技术资源论文链接Expert Divergence Learning for MoE-based Language ModelsarXiv:2603.00054 | ICLR 2026OpenCSG Fineweb-edu-chinese 数据集https://opencsg.com/datasets/OpenCSG/Fineweb-Edu-Chinese-V2.2https://huggingface.co/datasets/opencsg/Fineweb-Edu-Chinese-V2.2相关论文OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM TrainingarXiv:2501.08197OpenCSG 全球开源 AI 生态OpenCSG 以 Chinese FineWeb Edu 为代表的高质量中文数据集体系已被全球高校、科研机构及科技企业广泛采用是支撑中文 NLP 研究与大模型产业落地的核心数据基础。从顶尖高校 AI 实验室到企业级生产环境它持续为大模型预训练、指令微调与领域适配等关键环节提供可靠支撑推动研究成果向规模化应用高效转化。在学术领域该数据集已被 100 篇论文引用多次入选 NeurIPS、ACL 等国际顶会及 Nature 子刊、JMLR 等权威期刊成为验证中文语言模型泛化能力、知识建模效率与跨语言迁移效果的代表性基础资源。除了 Fineweb-Edu-Chinese 系列OpenCSG 还发布了 Cosmopedia-Chinese合成教科书风格数据和 Smoltalk-Chinese多样化对话格式数据等多个高质量中文数据集构成了完整的 OpenCSG Chinese Corpus 语料体系。高校与研究机构斯坦福大学、清华大学、中国人民大学高瓴人工智能学院、香港理工大学、上海人工智能实验室、北京智源研究院BAAI、鹏城实验室、西南电子技术研究所、西班牙国家级超算中心Barcelona Supercomputing Center及 Mozilla Data Collective 等。企业应用英伟达NVIDIA、苹果公司Apple Inc.、OPPO、美团、蚂蚁集团、面壁智能ModelBest、中国移动、中国联通等。OpenCSG 坚持“开源即文化”的理念通过透明、共创、共享的社区文化与全球开发者、工程师和 AI 原生企业共同构建智能体生态。无论是数据集、模型还是工具平台OpenCSG 始终遵循 Apache 2.0 等开源协议确保技术成果能够被广泛使用和自由创新。关于 OpenCSGOpenCSG是全球领先的开源大模型社区平台致力于打造开放、协同、可持续生态AgenticOps是人工智能领域的一种AI原生方法论由OpenCSG开放传神提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务具备业界领先的模型资产管理能力支持多角色协同和高效复用。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2411570.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！