当 MoE 专家不再“内卷“:Expert Divergence Learning 如何让每个专家各司其职

news2026/3/15 17:23:35
当 150 亿参数的 MoE 模型训练完成研究者们发现了一个令人困惑的现象8 个专家网络学到的竟然是几乎相同的东西。这不是个例而是 MoE 架构长期以来的“阿喀琉斯之踵”——专家同质化Expert Homogenization。在 ICLR 2026 上阿里巴巴集团Alibaba Group研究团队发表的论文《Expert Divergence Learning for MoE-based Language Models》提出了一个优雅的解决方案通过在预训练阶段引入专家分化学习Expert Divergence Learning让每个专家在不同数据域上形成明确的功能分工从而释放 MoE 架构的真正潜力。MoE 的困境为什么专家会变得“千篇一律”Mixture-of-ExpertsMoE架构是扩展语言模型的强大技术。它的核心思想很简单不是让一个巨大的模型处理所有任务而是训练多个“专家”网络每次推理时只激活其中几个从而在保持高性能的同时大幅降低计算成本。理想情况下每个专家应该学习不同的知识和技能——比如一个专家擅长数学推理另一个专家精通文学创作第三个专家专注于代码生成。但现实往往事与愿违。研究者们发现在标准的 MoE 训练过程中专家之间会出现严重的功能重叠。这种现象被称为“专家同质化”Expert Homogenization——不同专家学到的表征和功能高度相似导致 MoE 架构退化为一个低效的集成模型无法充分发挥其设计初衷。为什么会这样传统 MoE 训练中的负载均衡损失Load-Balancing Loss是罪魁祸首之一。这个损失函数的目标是让所有专家被均匀使用避免某些专家“偷懒”。但它的实现方式是在全局层面促进路由分布的均匀性这会无意中抹平专家之间的差异让它们趋向于学习相似的模式。更深层的原因在于标准的预训练目标语言建模损失本身并不鼓励专家分化。模型只需要最小化预测误差至于是通过专家分工还是专家重复来实现训练过程并不关心。在这种情况下模型往往会选择“安全”的策略——让所有专家都学习通用的语言模式而不是冒险进行功能分化。Expert Divergence Learning让专家“各司其职”的训练策略论文提出的 Expert Divergence Learning 是一个简单但有效的解决方案。核心思想是在预训练阶段利用数据集中固有的领域标签domain labels显式地鼓励不同领域的数据激活不同的专家组合。具体来说这个方法引入了一个辅助损失函数它计算不同数据域之间专家路由分布的 Jensen-Shannon DivergenceJS 散度。JS 散度是一个衡量两个概率分布差异的指标——差异越大JS 散度越大。通过最大化不同领域数据的路由分布之间的 JS 散度模型被迫让不同领域的数据“走向”不同的专家。这个优化目标带来了两个关键效果领域间分化来自不同领域如科学文献 vs 网页文本 vs 代码的数据会被路由到不同的专家组合促使专家形成领域特化。领域内一致性来自同一领域的数据会被路由到相似的专家组合确保专家能够在特定领域内建立连贯的知识表征。这种训练策略的美妙之处在于它不需要修改模型架构不需要人工设计专家分工也不需要额外的标注数据。数据集中的领域标签如网页来源、文档类型、主题分类等是预训练语料天然具备的元信息。Expert Divergence Learning 只是巧妙地利用了这些信息引导模型自发地形成有组织的专家分工。数据质量的关键作用Fineweb-edu-chinese 的价值在 Expert Divergence Learning 的框架下数据质量的重要性被进一步放大。为什么首先领域标签的可靠性直接影响专家分化的效果。如果数据集中的领域标签混乱、不准确或者领域划分不合理那么基于这些标签的分化学习就会误导模型。高质量的数据集不仅意味着文本内容的质量还意味着元数据的准确性和领域划分的合理性。其次领域内数据的质量决定了专家能否学到有价值的专业知识。如果某个领域的数据充斥着噪音、重复内容或低质量文本那么即使专家成功地“专注”于这个领域它学到的也只是垃圾。只有当领域内数据具备足够的信息密度和教育价值时专家分化才能转化为能力提升。这正是OpenCSG Fineweb-edu-chinese数据集的价值所在。作为 MoE 模型预训练的中文语料来源Fineweb-edu-chinese 提供了高质量的领域覆盖数据集涵盖了教育、科技、专业领域等多个高价值领域每个领域都经过精心筛选和质量控制。这为 Expert Divergence Learning 提供了清晰的领域边界和可靠的领域标签。教育价值导向的内容筛选通过 csg-wukong-enterprise 模型进行的质量评分4 分以上确保了每个领域内的数据都具备高信息密度和逻辑连贯性。这让专家能够在各自领域内学到真正有用的知识而不是噪音。中文语言特性的深度优化针对中文互联网的特殊性编码问题、繁简转换、广告过滤等进行的系统化处理确保了中文数据的可用性和一致性。这对于训练中文 MoE 模型至关重要。规模与质量的平衡188M 条文档、约 420B tokens 的规模既能支撑大规模预训练又通过质量筛选避免了“规模陷阱”。在 Expert Divergence Learning 的框架下这种平衡尤为重要——数据不仅要多更要“对”。论文的实验结果验证了这一点。在使用包含 Fineweb-edu-chinese 的多领域数据集进行预训练时引入 Expert Divergence Learning 的 MoE 模型不仅在语言建模损失上表现更好在中文理解、专业能力等下游任务上也展现出显著的性能提升。更重要的是通过分析专家的路由模式研究者确认了专家确实形成了明确的领域分工——某些专家专注于处理教育类文本某些专家擅长科技内容某些专家则在通用网页文本上表现出色。实验验证分化学习带来的全面提升论文在最大 150 亿参数的 MoE 模型上进行了从零开始的预训练实验系统性地验证了 Expert Divergence Learning 的有效性。语言建模性能在相同的训练预算下使用 Expert Divergence Learning 的模型在验证集上的困惑度Perplexity持续低于基线模型。这说明专家分化确实提升了模型的语言理解能力。下游任务表现在涵盖中英文理解、推理、知识问答等多个维度的基准测试中Expert Divergence Learning 模型在绝大多数任务上都显著优于标准 MoE 模型。特别是在需要专业知识的任务上如科学问答、数学推理性能提升尤为明显。专家同质化缓解通过计算专家之间的表征相似度和路由分布差异论文证实 Expert Divergence Learning 有效地减少了专家同质化现象。不同专家的激活模式呈现出明显的差异化而不是像基线模型那样高度重叠。训练效率关键的是这些提升几乎没有增加训练成本。Expert Divergence Loss 的计算开销可以忽略不计整体训练吞吐量与标准 MoE 训练基本持平。这意味着这个方法可以无缝集成到现有的大规模预训练流程中。论文还进行了消融实验对比了不同领域粒度3 类 vs 49 类、不同损失权重、不同数据混合比例下的效果。结果显示只要领域划分合理、数据质量可靠Expert Divergence Learning 在各种配置下都能带来稳定的性能提升。这进一步证明了方法的鲁棒性和实用性。从技术创新到生态协同OpenCSG 的数据基础设施价值Expert Divergence Learning 论文的成功不仅是算法创新的胜利更是数据基础设施建设的成果。当我们深入分析这个技术突破的实现路径会发现一个清晰的逻辑链条算法创新需要高质量数据支撑→ Expert Divergence Learning 依赖于可靠的领域标签和高质量的领域内数据 → 这需要系统化的数据治理和质量控制 → OpenCSG Fineweb-edu-chinese 提供了这样的数据基础设施。这不是简单的“有数据就行”而是数据质量、数据组织方式、数据元信息的完整性共同决定了算法能否发挥作用。在 MoE 这样的复杂架构中这种依赖关系更加明显——模型的能力上限不仅取决于参数规模和训练算法更取决于训练数据的质量和多样性。OpenCSG 通过开源 Fineweb-edu-chinese 及其完整的数据处理工具链实际上是在构建一套可复现、可扩展、可持续演进的中文数据基础设施。这套基础设施的价值体现在多个层面降低研究门槛研究者不需要从零开始处理 Common Crawl 中文数据可以直接使用 Fineweb-edu-chinese 作为起点专注于算法创新。推动技术标准化一个被顶级会议论文验证的公开数据集本身就是一种质量标准的确立为中文预训练语料提供了可参照的基准。促进学术-工业协同学术界的算法创新如 Expert Divergence Learning和工业界的数据工程能力如 OpenCSG 的数据治理体系相互促进加速技术迭代。支撑生态多样性高质量的开源数据让更多小团队和研究者能够训练有竞争力的模型避免技术能力被少数资源丰富的机构垄断。这种“开源社区 学术前沿”的协同模式正是推动 AI 技术健康发展的关键力量。当基础设施以开源的方式共享当数据治理的最佳实践以论文的方式传播整个生态的进步速度将远超任何一家机构的单打独斗。未来展望从专家分化到知识组织化Expert Divergence Learning 打开了一扇新的窗口让我们看到 MoE 架构的更多可能性。如果专家可以通过训练策略引导形成领域分工那么未来是否可以实现更精细的知识组织多层次的专家分化不仅在领域层面分化还可以在任务类型、推理模式、语言风格等多个维度上引导专家形成层次化的分工。动态的专家组合根据输入的复杂度和类型动态地决定激活哪些专家、以什么方式组合它们的输出实现更灵活的推理策略。可解释的专家功能通过分析专家的激活模式和路由策略我们可以更好地理解模型“知道什么”、“擅长什么”为模型的可解释性和可控性提供新的工具。持续学习与知识更新当新的领域数据到来时可以针对性地更新相关专家而不需要重新训练整个模型实现更高效的持续学习。这些方向的探索都需要高质量、多样化、组织良好的训练数据作为基础。OpenCSG Fineweb-edu-chinese 及其背后的数据治理方法论为这些未来的研究提供了坚实的起点。更重要的是随着 MoE 架构在工业界的广泛应用从 GPT-4 到 Mixtral从 DeepSeek 到各种开源模型Expert Divergence Learning 这样的训练策略有望成为标准实践。而支撑这些实践的正是像 Fineweb-edu-chinese 这样的高质量开源数据集。结语数据基础设施是 AI 进步的隐形推手当我们讨论 AI 的技术突破时往往聚焦于模型架构、训练算法、推理优化。但真正支撑这些创新的是那些不太显眼但至关重要的基础设施——高质量的数据集、标准化的评测基准、开源的工具链、活跃的社区生态。Expert Divergence Learning 论文的成功再次证明了数据质量在 AI 发展中的核心地位。一个优雅的算法创新需要高质量的数据才能发挥作用一个强大的模型架构需要多样化的数据才能展现潜力。OpenCSG 通过持续开源高质量的中文数据集Fineweb-edu-chinese、Cosmopedia-chinese、Smoltalk-chinese 等正在构建中文 AI 生态的数据基础设施。这不仅是技术贡献更是一种生态理念的体现——通过开源协作让每一个有想法的研究者和开发者都能站在高质量数据的肩膀上推动中文 AI 的共同进步。在 MoE 模型从“专家内卷”走向“各司其职”的过程中在 AI 从“堆算力”转向“拼数据算法”的范式转变中像 Fineweb-edu-chinese 这样的开源数据集正是那个不可或缺的基石。当专家不再同质化当数据成为第一性原理AI 的未来才真正充满可能。****技术资源论文链接Expert Divergence Learning for MoE-based Language ModelsarXiv:2603.00054 | ICLR 2026OpenCSG Fineweb-edu-chinese 数据集https://opencsg.com/datasets/OpenCSG/Fineweb-Edu-Chinese-V2.2https://huggingface.co/datasets/opencsg/Fineweb-Edu-Chinese-V2.2相关论文OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM TrainingarXiv:2501.08197OpenCSG 全球开源 AI 生态OpenCSG 以 Chinese FineWeb Edu 为代表的高质量中文数据集体系已被全球高校、科研机构及科技企业广泛采用是支撑中文 NLP 研究与大模型产业落地的核心数据基础。从顶尖高校 AI 实验室到企业级生产环境它持续为大模型预训练、指令微调与领域适配等关键环节提供可靠支撑推动研究成果向规模化应用高效转化。在学术领域该数据集已被 100 篇论文引用多次入选 NeurIPS、ACL 等国际顶会及 Nature 子刊、JMLR 等权威期刊成为验证中文语言模型泛化能力、知识建模效率与跨语言迁移效果的代表性基础资源。除了 Fineweb-Edu-Chinese 系列OpenCSG 还发布了 Cosmopedia-Chinese合成教科书风格数据和 Smoltalk-Chinese多样化对话格式数据等多个高质量中文数据集构成了完整的 OpenCSG Chinese Corpus 语料体系。高校与研究机构斯坦福大学、清华大学、中国人民大学高瓴人工智能学院、香港理工大学、上海人工智能实验室、北京智源研究院BAAI、鹏城实验室、西南电子技术研究所、西班牙国家级超算中心Barcelona Supercomputing Center及 Mozilla Data Collective 等。企业应用英伟达NVIDIA、苹果公司Apple Inc.、OPPO、美团、蚂蚁集团、面壁智能ModelBest、中国移动、中国联通等。OpenCSG 坚持“开源即文化”的理念通过透明、共创、共享的社区文化与全球开发者、工程师和 AI 原生企业共同构建智能体生态。无论是数据集、模型还是工具平台OpenCSG 始终遵循 Apache 2.0 等开源协议确保技术成果能够被广泛使用和自由创新。关于 OpenCSGOpenCSG是全球领先的开源大模型社区平台致力于打造开放、协同、可持续生态AgenticOps是人工智能领域的一种AI原生方法论由OpenCSG开放传神提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务具备业界领先的模型资产管理能力支持多角色协同和高效复用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2411570.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…