AI语言模型学习新技能的顺序,竟然惊人地相似
这项由卡内基梅隆大学语言技术研究所、约翰斯·霍普金斯大学计算机系、东北大学Khoury计算机学院以及南加州大学计算机系联合完成的研究于2026年4月发布在arXiv预印本平台论文编号为arXiv:2604.08510。感兴趣的读者可通过该编号查阅完整原文。**一个困扰研究者多年的谜题**每当一个孩子学语言我们会发现他们几乎总是先学会叫妈妈然后学会说简单名词再学会造句最后才能讲述复杂的故事。这个学习顺序不是随机的而是有内在规律的。那么人工智能语言模型呢它们在接受大量文字训练时是否也存在这样一个固定的学习成长顺序卡内基梅隆大学等高校的研究团队对这个问题展开了深入研究并提出了一个令人兴奋的猜想他们将其命名为隐性课程假说Implicit Curriculum Hypothesis。简单来说他们猜测不同的AI语言模型即使来自不同的公司、用不同的数据训练在学习各种技能的顺序上会呈现出出人意料的一致性——就像不同国家的孩子虽然学的是不同的母语但都会先学简单词汇再学复杂语法一样。这个问题之所以重要是因为现代AI语言模型的训练极其昂贵有时甚至需要耗资数百万美元。然而工程师们监控模型训练进展的方式一直停留在观察一个叫做交叉熵损失的数字上——这个数字虽然会随着训练持续下降但它就像只告诉你学生总分提高了多少而完全无法告诉你这个学生现在会不会做加减法、会不会写作文。研究团队希望填补这一空白找到一套更精细的方法来理解AI究竟在什么时候学会了什么。**一、给AI设计一套能力测试题**要研究AI学习技能的顺序首先需要一套设计精良的测试题。研究团队设计了一套共91道测试任务涵盖了从极简单到相对复杂的各类技能。这些任务分为两大类。第一类叫做基础任务共53个每个任务只考查一种特定能力。比如复制任务就是把输入的文字原样输出大写任务是把输入的小写字母变成大写翻译英译法任务是把英文单词翻译成法文提取数字任务是从一段文字描述中找出数字。这些任务涵盖了字符串操作比如倒序、取首字母、词形变换比如把动词变成进行时形式、知识检索比如回答某个国家的首都是哪里、翻译、算术计算以及逻辑推理等多个维度。第二类叫做组合任务共38个是将多个基础任务串联起来完成的。比如动词进行时大写这个任务要求先把输入的动词变成进行时形式再把结果全部大写——输入run正确答案是RUNNING。再比如法译英倒序任务需要先把法语单词翻译成英语再把英语单词的字母倒序排列——输入bonjour正确答案是olleh。这种设计的妙处在于每个组合任务的先决条件是已知的要完成动词进行时大写模型必须先会动词进行时和大写这两个基础任务。这套测试的评分方式也很简洁完全匹配才算正确没有模糊地带。这让研究者能够精确地追踪每个模型在每个训练时间点上到底有没有掌握某项技能。**二、横跨四个模型家族的追踪实验**测试题有了接下来需要被测者。研究团队选择了9个不同的AI语言模型来自4个不同的模型家族参数规模从4亿到130亿不等。这4个家族分别是OLMo-2系列包含10亿、70亿和130亿参数的三个版本可以研究同一家族内规模变化的影响OLMo-3系列有一个70亿参数版本可以与OLMo-2进行跨代比较LLM360系列包含Crystal7B和Amber7B两个模型它们的特别之处在于训练数据完全不同——Crystal偏向代码数据Amber偏向自然语言数据这让研究者可以在控制模型架构的同时研究数据组成对学习顺序的影响以及Pythia系列包含4亿、14亿和120亿参数三个版本这是一个较早期的模型系列用不同于前三者的数据训练。每个模型都提供了训练过程中保存的中间检查点——可以把它们理解为模型成长过程中不同时间点的快照。研究团队聚焦于每个模型训练的前1万亿个词元token阶段并在这段时间内大约均匀采样20个检查点相当于每隔200亿词元拍一张照。通过对这些快照逐一进行91道测试题的测评就可以描绘出每个技能在每个模型中随时间变化的成长曲线。**三、技能出现的顺序跨模型高度一致**研究的第一个核心发现是对隐性课程假说第一个预测的验证不同模型学习技能的顺序高度相似。研究团队定义了一个技能出现时间点当某个模型在某项任务上的准确率首次超过80%时认为该模型掌握了这项技能。然后他们比较不同模型的技能掌握顺序是否一致。结果令人印象深刻。在所有45对模型的两两比较中技能掌握顺序的斯皮尔曼秩相关系数一种衡量两个排名序列是否相似的统计指标平均高达0.81最低也有0.64最高达到0.93且所有相关系数的统计显著性都极高p值远小于10的负7次方。换句话说如果你知道了某个模型掌握各项技能的顺序你就能以相当高的准确度预测另一个完全不同的模型的掌握顺序——哪怕这两个模型来自不同的公司、用不同的数据训练、参数量相差数倍。那么这个顺序具体是什么样的最先被所有模型掌握的技能是复制即把输入原样输出。这也许并不令人惊讶因为这是最简单的信息传递任务。紧随其后的是各类简单的字符串操作比如大写、小写、提取首字母等。然后是词形变换比如把动词变成进行时形式把单数名词变成复数。接下来是知识检索类任务比如翻译和回答简单事实性问题。再往后简单的逻辑推断开始出现。最后才出现的是多步骤算术计算和更复杂的推理任务。同族模型之间的相关性尤其高比如OLMo-2的7B和13B版本相关系数高达0.93。但即便是跨越家族、跨越数据类型、跨越年代的比较相关性也依然显著——比如Amber与OLMo-2系列的相关系数在0.82到0.88之间即便是最风格迥异的组合比如仅有4亿参数的Pythia-410M与130亿参数的OLMo-2-13B相关系数也达到了0.60。这里有一个重要的细节这种高度一致性只在使用绝对准确率阈值比如固定在80%时成立。如果改用相对阈值比如达到该模型在该任务上历史最高分的80%跨模型的相关性就会大幅下降平均只有0.50左右。研究团队对此给出了合理的解释相对阈值依赖于每个模型自己的天花板一个能力较弱的模型可能在某项任务上永远无法达到有意义的准确率却可能因为偶然性较早触发了相对阈值而绝对阈值更接近这个模型真正学会了这件事这个概念因此能更准确地捕捉技能出现这一事件。**四、复杂任务总是在其组成部分之后出现**研究的第二个核心发现验证了假说的第二个预测组合任务通常在其组成的基础任务之后才被模型掌握。在总共76对组合任务-基础任务的比较中有54对符合预期——组合任务确实在基础任务之后出现。这个比例大约是71%算不上完美但已经提供了相当强的支持证据。剩余的违反情况可以分为两类。其中19个属于弱违反——组合任务的出现时间比其中一个基础任务早但另一个基础任务还是先出现了另外只有3个属于强违反——组合任务比它的所有基础任务都更早出现。有意思的是这3个强违反的案例全都涉及同一个基础任务提取首字母。这个发现暗示提取首字母这个任务虽然在测试框架中被设计为其他任务的组成部分但它在实际训练动态中的位置可能与其他基础任务不太一样——可能是因为直接取首字母这个操作在现实中往往会和更复杂的任务同时出现在训练数据里从而让模型在学会单独做这件事之前就在组合情境下见过它了。这个发现的意义在于它将我们对AI学习的理解从AI只是在随机学习推向了AI的学习遵循一种结构性的从简到难的顺序。当你理解了这种顺序就可以用它来诊断模型训练是否正常如果模型在某个复杂任务上表现差劲你可以检查它的先决技能是否都已经掌握了如果连先决技能都没学好那就找到问题的根源了。**五、技能的形状决定了它的命运**研究的第三个也是最令人着迷的发现涉及到模型内部的表示空间。在AI语言模型内部每个任务都可以被表示为一个高维空间中的方向向量——研究团队把这些向量称为功能向量function vector。你可以把它理解为模型内部对如何完成这个任务的一种压缩摘要。两个任务的功能向量越相似就像两个指向差不多方向的箭头说明模型执行这两个任务时用到的内部机制越相似。研究团队提出了第三个预测内部表示相似的任务学习轨迹也应该相似。通俗地说如果模型处理法译英和西译英的方式在内部高度相似那么这两项技能的成长曲线也应该高度相似——比如都在训练到大约200亿词元时开始明显提升都在600亿词元时趋于稳定。为了验证这个预测研究团队设计了一个精巧的实验。他们把38个组合任务一个一个地藏起来假装自己从来没有观测过那个任务的训练轨迹然后只用其他任务的功能向量和训练轨迹信息来预测那个被藏起来的任务的训练轨迹——整个过程不用对那个任务做任何实际测试完全依赖表示空间中的邻居关系来推断。这个实验的结果出乎意料地好。在包含所有任务基础任务和其他组合任务作为参考的条件下预测质量的R?判定系数越接近1说明预测越准确在不同模型上介于0.68到0.84之间其中部分单个任务的预测精度甚至超过了0.95。以OLMo-2 7B为例对法译英再大写这个组合任务的预测R?高达0.99平均绝对误差只有0.017——几乎与真实轨迹完全重合。对复数再小写的预测R?也达到了0.89。当然也有预测效果较差的案例比如英译法再大写的R?只有0.51说明这个任务的训练轨迹与它在表示空间中的邻居不够相似或者邻居本身的轨迹也比较杂乱。更有趣的是研究团队还比较了两种参考条件用所有任务作为参考还是只用基础任务作为参考。结果发现一旦把组合任务从参考集中移除预测误差MAE平均绝对误差在所有模型上都显著增加平均增加了0.135。这说明组合任务之间共享的某种特殊结构是无法完全用基础任务来替代的——也就是说组合本身这件事在模型的内部表示中也留下了独特的痕迹。研究者把这种现象称为组合瓶颈意指学习如何将技能组合起来是一种超越了单独学习每项技能的额外能力。**六、这套发现意味着什么**归根结底这项研究揭示了一件很有意思的事AI语言模型的训练并不像表面上看起来那么混乱和不可预测。在平滑下降的损失曲线背后隐藏着一个有序的技能习得过程这个过程在不同模型、不同数据、不同规模上保持着令人惊讶的一致性。这对AI研究和应用来说有几层实际意义。其一这为AI训练监控提供了一种新思路。以往工程师只能盯着损失曲线看不出模型到底学到了什么。而这套任务测试体系可以作为一组能力里程碑帮助工程师判断模型是否在以正常节奏发展各项能力。如果某个预期早出现的技能迟迟没有出现这可能是一个需要排查的异常信号。其二这为理解AI的能力瓶颈提供了新工具。当一个AI在某个复杂任务比如数学应用题上表现不佳时研究者现在可以系统地检查该任务所依赖的先决技能链而不是面对一个黑盒手足无措。这就像是给了医生一套完整的症状-病因图谱而不是只有一个患者病得很重的诊断结论。其三技能习得顺序与功能向量空间之间的关联暗示了AI内部表示的几何结构本身就携带了关于学习动态的信息。换句话说通过分析一个充分训练好的模型的内部结构我们或许可以推断出它在训练过程中经历了怎样的发展路径。这开辟了一个用解剖学来倒推发育史的研究方向。当然这项研究也有其局限性。研究选取的任务整体上还是比较简单、结构清晰的与现实世界中复杂的语言理解和生成任务之间存在一定距离。此外研究仅覆盖了训练前1万亿词元的阶段对于更后期的训练动态是否同样规律依然成立还有待进一步探索。研究使用的模型参数量上限为130亿当代最大的前沿模型动辄千亿参数这套规律在超大规模模型上是否仍然适用同样是一个开放问题。这就像我们发现了儿童语言习得有固定顺序一样——这个发现本身很重要但它只是更宏大的、关于智能如何发展这一问题的一个开端。那些更大的模型、更复杂的技能组合、更长的训练周期都在等待着后续研究的探索。---QAQ1隐性课程假说是什么意思它和真正的课程有什么关系A隐性课程假说说的是AI语言模型在用大量文字训练时并没有人为设计学习顺序但模型自发地会先学简单技能、后学复杂技能而且不同模型的这种学习顺序高度相似。这里的课程是个比喻指学习的先后安排隐性则是说这个顺序不是人刻意设定的而是训练过程自然涌现出来的。Q2为什么用绝对准确率阈值来定义技能出现而不是相对阈值A用相对阈值比如达到模型自身历史最高分的80%时跨模型的顺序一致性会大幅下降。原因是不同模型的天花板差异很大——弱模型可能在某项任务上永远达不到有意义的水平但可能因为随机波动较早触发了相对阈值。绝对阈值固定在80%准确率更准确地反映了模型真正学会了这件事所以能更清楚地捕捉技能出现的时间点。Q3功能向量是怎么提取出来的它真的能代表模型如何理解一项任务吗A功能向量是通过让模型完成某项任务的示例题目然后记录模型内部特定位置注意力头的输出或残差流的隐藏状态的激活值再对多个例题的激活值取平均来得到的。研究中只使用了模型答对的例题确保提取的是成功执行任务时的内部状态。这个向量能在一定程度上代表模型执行该任务的内部机制因为它能预测任务的学习轨迹但它并不是对模型内部机制的完整描述更像是一种有用的近似表示。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2558483.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!