为什么我们需要持续学习模型

news2026/4/27 6:10:10

在克里斯托弗·诺兰的电影《记忆碎片》中莱纳德·谢尔比生活在一个破碎的当下。在一次创伤性脑损伤后他患上了前向性失忆症这种疾病使他无法形成新的记忆。每隔几分钟他的世界就会重置让他滞留在一个永恒的现在中与刚发生的事情脱节对未来充满不确定。为了应对他靠在身上纹笔记和拍宝丽来照片来生存——这些基本上是外部道具用来提醒他的大脑无法保留的东西。大型语言模型也生活在类似的永恒现在中。它们从训练中涌现将大量知识冻结在参数中但它们无法形成新的记忆——无法根据新的经验更新参数。为了弥补我们用脚手架包围它们聊天历史作为短期便签检索系统作为外部笔记本系统提示作为引导性的纹身。模型本身从未真正内化新信息。一些研究人员越来越认为这还不够。上下文学习ICL对于答案或答案片段已经存在于某处的问题是足够的。但对于需要真正发现的问题如新数学、对抗性场景如安全或者知识过于隐晦而无法用语言表达的情况有一个强有力的论点是模型需要一种在部署后将知识和经验直接更新到参数中的方法。ICL 是短暂的。真正的学习需要压缩。除非我们让模型持续压缩否则我们可能被困在《记忆碎片》的永恒现在中。反过来如果我们能训练模型学习自己的记忆架构——而不是将其卸载给定制的框架——我们可能会解锁一个全新的扩展维度。这个研究领域的名字叫做持续学习。虽然这个想法并不新鲜参见McCloskey 和 Cohen1989年但我们认为这是目前 AI 领域最重要的工作之一。在过去2-3年中模型能力的惊人增长下模型所知和它们可能所知之间的差距变得越来越明显。因此我们这篇文章的目标是分享我们从该领域顶级研究人员那里学到的内容帮助厘清持续学习的不同方法并在创业生态系统中推进这个话题。注本文得益于与一群杰出研究员、博士生和创业创始人的对话他们公开分享了他们在持续学习方面的工作和观点。他们的洞察——从理论基础到部署后学习的工程现实——使这篇文章比我们自己能写的更加锐利和扎实。感谢你们慷慨地分享时间和想法1、首先谈谈上下文在为参数化学习——即更新模型权重的学习——辩护之前重要的是承认上下文学习确实有效。而且有一个令人信服的论点是它会继续获胜。Transformer 从根本上说是序列上的条件下一个 token 预测器。给它们正确的序列你会得到惊人丰富的行为而无需触碰权重。这就是为什么上下文管理、提示工程、指令微调和少样本示例如此强大。智能存在于静态参数中而表面能力根据你输入窗口的内容发生根本性变化。Cursor 最近深入研究了扩展自主编码智能体的例子很好地说明了这一点“系统行为的惊人大量取决于我们如何提示智能体。框架和模型很重要但提示更重要。”模型权重是固定的。让系统工作的是对上下文的精心编排包含什么、何时总结、如何在数小时的自主操作中维持一致的状态。OpenClaw 是另一个很好的例子。它之所以脱颖而出不是因为特殊的模型访问权限底层模型对所有人都可用而是因为它非常有效地将上下文和工具转化为工作状态跟踪你在做什么、构建中间产物、决定什么重新注入提示、维护先前工作的持久记忆。OpenClaw 将智能体框架设计提升为一门独立的学科。当提示首次出现时许多研究人员怀疑仅仅提示能否成为严肃的接口。它看起来像一个 hack。然而它是 Transformer 架构原生的不需要重新训练并随着模型改进自动扩展。所以随着模型变得更好提示也变得更好。粗糙但原生的接口通常会赢因为它们直接耦合到底层系统而不是与之对抗。到目前为止LLM 正是这种情况。2、状态空间模型上下文的增强版随着主导工作流从原始 LLM 调用转向智能体循环上下文学习模型上的压力越来越大。以前完全填满上下文的情况相对罕见。这通常发生在 LLM 被要求做一长串离散工作时应用层可以以直接的方式修剪和/或压缩聊天历史。但有了智能体一个任务就可能消耗总可用上下文的很大一部分。智能体循环中的每一步都依赖于前一次迭代传递的上下文。它们通常在20-100步后失败因为它们丢失了线索上下文填满了连贯性下降它们停止收敛。因此主要 AI 实验室现在正在投入大量资源即大型训练运行来开发具有非常大上下文窗口的模型。这是一种自然的方法因为它建立在正在起作用的东西上下文学习之上并清晰地映射到行业向推理时计算的更广泛转变。最常见的架构是将固定记忆层与正常注意力头交替穿插即状态空间模型和线性注意力变体为简单起见我们将所有这些称为 SSM。SSM 为长上下文提供了比传统注意力根本更好的扩展特性。目标是帮助智能体将连贯性维持几个数量级更长的循环从大约20步到20,000步而不失去传统 Transformer 提供的技能和知识的广度。如果成功这将是长时间运行智能体的重大胜利。你甚至可以考虑这种方法是持续学习的一种形式虽然你没有更新模型权重但你引入了一个很少需要重置的外部记忆层。所以这些非参数化方法是真实且强大的。对持续学习的任何评估都必须从这里开始。问题不在于当今基于上下文的系统是否有效——它们确实有效。问题在于我们是否正在看到天花板以及新方法是否能带我们走得更远。3、上下文遗漏了什么文件柜谬误“AGI 和预训练发生的事情是在某种意义上它们超出了目标……人类不是 AGI。是的确实有一个技能基础但人类缺乏大量知识。相反我们依赖持续学习。如果我产生一个超级聪明的15岁孩子他们其实不知道多少东西。一个很好的学生非常渴望。你可以说去当程序员。去当医生。部署本身将涉及某种学习、试错期。这是一个过程而不是投放成品。”— Ilya Sutskever想象一个拥有无限存储的系统。世界上最大的文件柜每个事实都完美索引即时可检索。它可以查找任何东西。它学习了吗没有。它从未被迫进行压缩。这是我们论点的核心它借鉴了 Ilya Sutskever 之前提出的一个观点LLM 从根本上是压缩算法。在训练期间它们将互联网压缩成参数。压缩是有损的而这正是它强大的原因。压缩迫使模型找到结构、进行泛化、构建跨上下文迁移的表示。记住每个训练示例的模型比提取底层模式的模型更差。有损压缩就是学习。讽刺的是使 LLM 在训练期间如此强大的机制例如将原始数据压缩成紧凑、可迁移的表示正是我们在部署后拒绝让它们做的事情。我们在发布的时刻停止压缩代之以外部记忆。当然大多数智能体框架以某种定制方式压缩上下文。但苦涩的教训难道不是暗示模型本身应该学会直接且大规模地进行这种压缩吗余越分享的一个用来说明争论的例子是数学。考虑费马大定理。350多年来没有数学家能证明它——不是因为他们缺乏正确文献的访问权限而是因为解决方案高度新颖。既定数学与最终答案之间的概念距离实在太大了。当安德鲁·怀尔斯最终在1990年代破解它时经过近七年的近乎完全独立工作他必须发明强大的新技术来达成解决方案。他的证明依赖于成功桥接两个不同的数学分支椭圆曲线和模形式。虽然 Ken Ribet 的早期工作表明证明这种连接会自动解决费马大定理但直到怀尔斯才有人拥有实际构建那座桥梁的理论工具。对格里戈里·佩雷尔曼证明庞加莱猜想也可以提出类似的论点。核心问题是这些例子是否证明了 LLM 中缺少了某些东西——某种更新其先验知识并以真正创造性方式思考的能力还是说这个故事证明了相反的观点——所有人类知识只是可用于训练/重组的数据而怀尔斯和佩雷尔曼只是展示了 LLM 在更大规模上能做什么这个问题是经验性的答案尚不清楚。但我们确实知道有许多类别的问题今天上下文学习会失败而参数化学习可能产生影响。例如更重要的是上下文学习仅限于可以用语言表达的内容而权重可以编码某人提示无法以文字传达的概念。有些模式维度太高、太隐晦、结构太深无法装入上下文。例如区分良性伪影和肿瘤的医学扫描中的视觉纹理或定义说话者独特韵律的音频微波动这些模式不容易分解为精确的词语。语言只能近似它们。无论提示多长都无法传递这些这种知识只能存在于权重中。它们存在于学习表示的潜在空间中而不是词语中。无论上下文窗口增长多长都会有一些无法用文字描述、只能保存在参数中的知识。这可能有助于解释为什么明确的机器人记得你功能如 ChatGPT 的记忆经常引发用户的不适而非欣喜。用户其实不想要回忆本身。他们想要能力。一个内化了你模式的模型可以泛化到新情况一个仅仅回忆你历史的模型不能。“这是你之前回复这封邮件的方式”逐字与我足够了解你的思维方式可以预测你需要什么之间的区别就是检索与学习之间的区别。3、持续学习入门持续学习有各种方法。分界线不是有记忆功能与无记忆功能。而是压缩在哪里发生方法沿一个光谱聚集从无压缩纯检索权重冻结到完全内部压缩权重级学习模型变得更聪明以及一个重要的中间地带模块。3.1 上下文在上下文端团队构建更智能的检索管道、智能体框架和提示编排。这是最成熟的类别基础设施已经过验证部署方案干净。限制是深度上下文长度。这里值得注意的一个新兴扩展是多智能体架构作为上下文本身的扩展策略。如果单个模型受限于128K token窗口一组协调的智能体群——每个持有自己的上下文、专门处理问题的一个切片并交流结果——可以集体近似无限工作记忆。每个智能体在其窗口内进行上下文学习系统进行聚合。Karpathy 最近的 autoresearch 项目 Cursor 构建 Web 浏览器的例子是早期案例。这是一种纯粹的非参数方法没有权重变化但它显著扩展了基于上下文系统能做的事情的上限。3.2 模块在模块领域团队构建可附加的知识模块压缩的 KV 缓存、适配器层、外部记忆存储专门化通用模型而无需重新训练。一个带有正确模块的8B模型可以在目标任务上匹配109B的性能只需使用一小部分内存。吸引力在于它与现有的 Transformer 基础设施兼容。3.3 权重在权重更新方面研究人员正在追求真正的参数化学习例如只更新相关参数片段的稀疏记忆层、从反馈中优化模型的强化学习循环以及在推理期间将上下文压缩到权重中的测试时训练。这些是最深入的方法也是最难部署的但它们确实允许模型完全内化新信息或技能。参数化更新有多种机制。列举几个研究方向权重级研究景观跨越多条并行的工作线。正则化和权重空间方法是最古老的EWCKirkpatrick 等人2017按参数对先前任务的重要性比例惩罚参数变化权重插值Kozal 等人2024在参数空间中混合新旧权重配置尽管两者在大规模时都趋于脆弱。测试时训练由 Sun 等人2020开创并演化为架构原语TTT 层、TTT-E2E、TTT-Discover采取不同方法在测试时数据上运行梯度下降在关键时刻将新信息压缩到参数中。元学习探讨我们是否可以训练学习如何学习的模型从 MAML 的少样本友好参数初始化Finn 等人2017到 Behrouz 等人的嵌套学习2025后者将模型构建为在不同时间尺度上运行的优化问题层次结构具有受生物记忆巩固启发的快速适应和慢速更新模块。蒸馏通过让学生匹配冻结的教师检查点来保留先前任务知识。LoRDLiu 等人2025通过同时修剪模型和回放缓冲区使其足够高效以持续运行。自蒸馏SDFTShenfeld 等人2026翻转来源使用模型自身专家条件化的输出作为训练信号避开了顺序微调的灾难性遗忘。递归自我改进以类似精神运作STaRZelikman 等人2022从自我生成的理由引导推理AlphaEvolveDeepMind2025发现了数十年未被触碰的算法改进Silver 和 Sutton 的经验时代2025将智能体框架为从持续的、永不停歇的经验流中学习。这些研究方向正在趋同。TTT-Discover 已经将测试时训练与 RL 驱动的探索融合。HOPE 在单一架构中嵌套快速和慢速学习循环。SDFT 将蒸馏转化为自我改进原语。各列之间的边界正在模糊——下一代持续学习系统可能会结合多种策略使用正则化来稳定使用元学习来加速使用自我改进来复合。越来越多的初创公司正在押注这个堆栈的不同层次。4、持续学习创业生态非参数化端是最熟悉的。框架公司Letta、mem0、Subconscious构建编排层和脚手架管理进入上下文窗口的内容。外部存储和 RAG 基础设施例如 Pinecone、xmemory提供检索骨干。数据存在挑战是在正确的时间将正确的数据切片放到模型面前。随着上下文窗口的扩展这些公司的设计空间也随之增长特别是在框架方面新一波初创公司正在涌现以管理日益复杂的上下文策略。参数化端更早期且更多样化。这里的公司正在尝试某种形式的部署后压缩让模型在权重中内化新信息。方法聚类成几个不同的押注关于模型在发布后如何学习。部分压缩无需重新训练的学习。一些团队正在构建可附加的知识模块压缩的 KV 缓存、适配器层、外部记忆存储专门化通用模型而不触碰其核心权重。共同的论点是你可以获得有意义的压缩不仅仅是检索同时保持稳定性-可塑性权衡可控因为学习是隔离的而不是分布在整个参数空间中。一个带有正确模块的8B模型可以在目标任务上匹配远大于它的模型的性能。优势在于可组合性模块可以开箱即用地与现有 Transformer 架构配合使用可以独立交换或更新远比重新训练更容易实验。RL 和反馈循环从信号中学习。其他团队押注部署后学习最丰富的信号已经存在于部署循环本身——用户纠正、任务成功和失败、来自真实世界结果的奖励信号。核心理念是模型应该将每次交互视为潜在的训练信号而不仅仅是推理请求。这与人类在工作中改进的方式非常相似你做工作你获得反馈你内化什么有效。工程挑战是将稀疏的、嘈杂的、有时是对抗性的反馈转化为稳定的权重更新而不发生灾难性遗忘但从部署中真正学习的模型会以仅上下文系统无法做到的方式随时间复合增长价值。以数据为中心的方法从正确的信号中学习。一个相关但不同的押注是瓶颈不是学习算法而是训练数据和周围系统。这些团队专注于策划、生成或合成正确的数据来驱动持续更新前提是一个能获得高质量、结构良好的学习信号的模型只需要更少的梯度步骤就能有意义地改进。这与反馈循环公司自然地联系在一起但强调的是上游问题不仅仅是模型是否能学习而是它应该学习什么以及学习到什么程度。新颖架构为学习而设计。最激进的押注是 Transformer 架构本身就是瓶颈持续学习需要根本不同的计算原语具有连续时间动态和内置记忆机制的架构。这里的论点是结构性的如果你想要一个持续学习的系统你应该将学习机制构建到基底中。所有主要实验室也都在这些类别中活跃。一些正在探索更好的上下文管理和思维链推理。其他正在实验外部记忆模块或睡眠时计算管道。几家隐形初创公司正在追求新颖架构。这个领域足够早期没有单一方法获胜考虑到使用案例的范围也不应该有。5、为什么朴素的权重更新会失败在生产中更新模型参数会引入一系列故障模式到目前为止在大规模上尚未解决。工程问题是有据可查的。灾难性遗忘意味着足够敏感以从新数据中学习的模型会破坏现有表示——稳定性-可塑性困境。时间解纠缠是指不变规则和可变状态被压缩到相同的权重中所以更新一个会破坏另一个。逻辑整合失败是因为事实更新不会传播到其后果更改局限于 token 序列而非语义概念。而遗忘仍然是不可能的没有可微的减法操作所以错误或有毒的知识没有手术式的补救措施。但还有一组较少被关注的问题。当前训练和部署之间的分离不仅仅是一个工程便利——它是一个安全、可审计性和治理边界。打开它几件事会同时崩溃。安全对齐可能不可预测地退化即使在良性数据上的窄范围微调也可能产生广泛不对齐的行为。持续更新创建了数据投毒面——一种缓慢、持久地存在于权重中的提示注入版本。可审计性崩溃因为持续更新的模型是一个移动目标无法版本化、回归测试或一次性认证。当用户交互被压缩到参数中时隐私风险加剧将敏感信息烘焙到远比检索到的上下文更难过滤的表示中。这些都是开放问题不是根本不可能的事情解决它们与解决核心架构挑战一样都是持续学习研究议程的一部分。6、从《记忆碎片》到记忆莱纳德在《记忆碎片》中的悲剧不是他无法运作他很足智多谋在任何给定场景中甚至很出色。他的悲剧是他永远无法复合。每一次经历都保持外部——一张宝丽来、一个纹身、一张别人手写的便条。他可以检索但他无法压缩新知识。当莱纳德在这个自建的迷宫中穿行时真相与信念之间的界限开始模糊。他的状况不仅剥夺了他的记忆它迫使他不断重建意义使他同时成为自己故事中的调查者和不可靠的叙述者。今天的 AI 在相同的约束下运作。我们已经构建了极其强大的检索系统更长的上下文窗口、更智能的框架、协调的多智能体群它们有效但检索不是学习。一个可以查找任何事实的系统没有被迫使找到结构。它没有被迫使进行泛化。使训练如此强大的有损压缩——将原始数据转化为可迁移表示的机制——正是我们在部署的那一刻关闭的东西。前进的道路可能不是单一突破而是一个分层系统。上下文学习将仍然是适应的第一线它是原生的、经过验证的并且在不断改进。模块机制可以处理个性化和领域专业化的中间地带。但对于困难问题——如发现、对抗性适应、太隐晦而无法用文字表达的知识——我们可能需要在训练后将经验压缩到参数中的模型。这意味着在稀疏架构、元学习目标和自我改进循环方面的进展。它可能还要求我们重新定义模型甚至意味着什么不是一组固定的权重而是一个不断发展的系统包括其记忆、其更新算法以及从自身经验中抽象的能力。文件柜越来越大。但更大的文件柜仍然是文件柜。突破在于让模型在部署后做使它在训练期间如此强大的事情压缩、抽象和学习。我们正站在从失忆模型转向具有一丝经验的模型的门槛上。否则我们将被困在自己的《记忆碎片》中。原文链接为什么我们需要持续学习 - 汇智网

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2558583.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！