OpenClaw-RL 论文解读：用“下一状态信号“统一所有智能体的强化学习训练

news2026/3/15 13:33:04

OpenClaw-RL 论文解读用下一状态信号统一所有智能体的强化学习训练论文标题OpenClaw-RL: Train Any Agent Simply by Talking论文链接https://arxiv.org/abs/2603.10165作者Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang机构Peking University, Princeton University, Gen-Verse日期2026年3月10日GitHubhttps://github.com/Gen-Verse/OpenClaw-RL一、引言AI 智能体的训练困局过去一年大模型智能体Agent赛道热闹非凡。无论是对话助手、终端操作、GUI 自动化还是代码修复各种 Agent 层出不穷。但如果你仔细观察就会发现一个尴尬的事实几乎每种智能体都有自己独立的训练方法彼此之间毫无复用可言。想训练一个更好的对话助手你需要收集大量偏好数据构建奖励模型跑 RLHF 流程。想训练一个终端操作智能体你需要设计专门的环境奖励函数定义什么叫任务完成。想训练一个 GUI 智能体又是另一套完全不同的标注方案和评估体系。这就好比——你开了一家连锁餐厅每家分店都要从头发明一套全新的烹饪方法连锅碗瓢盆都不能通用。效率可想而知。问题的根源在哪现有方法把训练信号想得太复杂了。无论是 RLHF 的偏好数据、DPO 的成对比较还是各种手工设计的奖励函数本质上都是在往一个已经存在的简单信号上做加法——它们忽略了一个最朴素的事实智能体每执行一步操作后环境都会给出一个下一状态。这个下一状态本身就包含了判断这一步好不好的全部信息。你在终端敲了一行命令终端要么输出正确结果要么报错——这不就是最直接的反馈吗你在 GUI 上点了一个按钮界面要么跳转到了正确页面要么弹出了错误提示——这不也是明确的信号吗来自北京大学、普林斯顿大学和 Gen-Verse 的研究团队正是抓住了这个洞察提出了OpenClaw-RL框架。核心思路极其简洁把所有类型智能体的交互环境中自然产生的下一状态信号next-state signal统一起来作为强化学习的唯一训练来源。不需要人类标注偏好数据不需要手工设计奖励函数不需要为每种智能体定制训练流程。实验效果如何个人对话智能体的满意度从 0.17 飙升到 0.76提升 347%终端智能体在 InterCode-Bash 上从约 15% 提升到 50%SWE-bench Verified 的 Pass1 从约 5% 提升到 17.5%。更关键的是同一套框架、同一种训练方法就搞定了所有这些场景。图1OpenClaw-RL 的整体架构。左侧是各类智能体个人助手、终端、GUI、SWE、工具调用中间是环境服务器右侧是 RL 训练服务端——由策略服务器SGLang、PRM 服务器和训练引擎Megatron组成的全异步流水线。二、核心洞察被忽视的下一状态信号2.1 什么是下一状态信号让我们用一个生活中的类比来理解。假设你是一个正在学做菜的新手。你炒了一盘菜端给家人吃家人的反应就是你的下一状态信号评估信号家人说好吃或者太咸了——这告诉你这次做得好不好二元判断指导信号家人说下次少放半勺盐翻炒时间再短10秒——这告诉你具体该怎么改进方向性指导在智能体的世界里智能体类型动作下一状态信号包含的信息对话助手生成一段回复用户的下一轮回复“说得不对”评估或 “你应该更简洁些”指导终端智能体执行一条命令终端输出命令成功/报错评估错误信息指导GUI 智能体点击一个按钮屏幕截图变化页面是否正确跳转评估当前页面状态指导SWE 智能体提交一个代码补丁测试运行结果测试通过/失败评估错误日志指导工具调用智能体调用一个 APIAPI 返回结果返回正确数据/错误码评估错误描述指导关键洞察在于这些下一状态信号是环境免费产生的不需要任何额外的人工标注。用户回复了就是回复了终端输出了就是输出了。而且这些信号同时包含好不好评估和怎么改指导两种信息——前者可以转化为标量奖励后者可以转化为 token 级别的梯度方向。2.2 与传统方法的本质区别传统的 RLHF 或 DPO 方法有一个共同的架构假设训练信号需要离线收集然后批量训练。你先让模型生成一堆回复再找人标注哪个好哪个差最后用这些标注数据训练奖励模型或直接优化策略。这套流程有三个根本性的问题标注瓶颈需要大量人类标注数据成本高、速度慢分布漂移标注数据是基于旧模型生成的训练后的新模型已经跑偏了场景不通用对话场景的偏好标注方案完全无法迁移到终端操作或 GUI 交互OpenClaw-RL 的做法完全不同——在线学习即时反馈无需标注。智能体每执行一步操作环境自然产生下一状态立刻从中提取训练信号立刻更新模型。整个过程像一个永不停歇的自我改进循环。三、方法详解从下一状态到训练信号的两条路径OpenClaw-RL 提出了两种互补的方法从下一状态信号中提取不同粒度的训练信号并将它们组合成统一的优势函数。图2OpenClaw-RL 的三种学习机制。左Binary RL——从下一状态中提取二元奖励好/坏中后验引导在线策略蒸馏OPD——将下一状态作为额外上下文构建教师右Step-wise Reward——PRM 为每一步分配密集奖励。3.1 路径一Binary RL——“这步做得好不好”第一条路径解决的是最基本的问题判断智能体的每一步操作是好是坏。具体做法智能体在状态sts_tst下执行动作ata_tat环境返回下一状态st1s_{t1}st1一个 PRMProcess Reward Model过程奖励模型判别器接收(st,at,st1)(s_t, a_t, s_{t1})(st,at,st1)输出一个二元判断Atbinary{1如果 PRM 判定这步操作是好的−1否则A_t^{binary} \begin{cases} 1 \text{如果 PRM 判定这步操作是好的} \\ -1 \text{否则} \end{cases}Atbinary{1−1如果PRM判定这步操作是好的否则这里用 PRM 而不是简单的 ORMOutcome Reward Model是有讲究的。传统 ORM 只在整个轨迹结束后给一个总分——就像老师只在学期末给你一个总评成绩。而 PRM 在每一步都给分——就像老师每次作业都批改打分你能立刻知道哪里做对了、哪里做错了。在 Agentic 场景下一个任务可能包含十几甚至几十步操作如果只在最后才知道整体好不好中间那些步骤的贡献完全无法区分这就是经典的信用分配难题。PRM 的逐步评判恰好解决了这个问题。3.2 路径二后验引导在线策略蒸馏OPD——“具体应该怎么改”Binary RL 告诉你好不好但没告诉你该往哪个方向改。这就引出了第二条路径OPDOnline Policy Distillation。核心思路非常巧妙——把下一状态信号当作作弊条塞给同一个模型让它在看过答案的条件下重新生成动作这个增强版的输出就是教师信号。具体来说智能体学生在状态sts_tst下生成动作ata_tat此时它看不到未来会发生什么环境返回下一状态st1s_{t1}st1把st1s_{t1}st1拼接到sts_tst后面构建一个增强上下文让同一个模型在增强上下文下重新计算ata_tat每个 token 的概率——这就是教师的输出教师和学生是同一个模型唯一的区别是教师多看了一个下一状态。这就好比——你和你自己比赛做数学题但教师版的你可以偷看答案的最后一行。显然教师版会更准确地知道中间步骤该怎么走。OPD 的优势函数定义为Atopdlog⁡πteacher(at∣st,st1)−log⁡πstudent(at∣st)A_t^{opd} \log \pi_{teacher}(a_t | s_t, s_{t1}) - \log \pi_{student}(a_t | s_t)Atopdlogπteacher(at∣st,st1)−logπstudent(at∣st)这个公式的直觉很清晰如果教师看过答案认为某个 token 应该生成的概率比学生没看答案高得多说明这个 token 是正确方向反之亦然。这提供了token 级别的方向性梯度比 Binary RL 的粗粒度判断精细得多。更妙的是OPD 不需要训练任何额外的奖励模型或教师模型——它直接复用了当前策略模型本身。这在工程实现上极其简洁。3.3 组合统一优势函数最终两条路径的信号被加权组合Atwbinary⋅rfinalwopd⋅(log⁡πteacher−log⁡πθ)A_t w_{binary} \cdot r_{final} w_{opd} \cdot (\log \pi_{teacher} - \log \pi_\theta)Atwbinary⋅rfinalwopd⋅(logπteacher−logπθ)其中rfinalr_{final}rfinal是 PRM 给出的逐步奖励wbinaryw_{binary}wbinary和wopdw_{opd}wopd是平衡系数。这个组合的好处是Binary RL 提供稳定的方向盘明确告诉优化方向奖励好的惩罚差的OPD 提供精细的导航仪在 token 级别告诉具体往哪转两者互补就像开车时既要知道往北走Binary RL又要知道下个路口左转OPD。3.4 Step-wise Standardization解决密集奖励的尺度问题在 Agentic RL 中一个轨迹可能跨越几十步每一步的奖励值范围和分布可能差异很大。如果简单地对整个轨迹的奖励做全局标准化会丢失步骤间的相对信息。OpenClaw-RL 提出了Step-wise Standardization逐步标准化在同一个 batch 内对同一时间步的所有样本的奖励单独标准化。这保证了每一步的奖励信号都有合理的量纲不会因为某些步骤天然奖励值更高而压制其他步骤的信号。四、工程架构四模块全异步流水线论文的另一大贡献是提出了一个工程上极其优雅的异步训练架构。在智能体 RL 训练中环境交互通常是最大的瓶颈——一次 SWE 任务可能需要几分钟甚至几十分钟才能完成。如果让训练引擎干等环境返回结果GPU 利用率会低到令人发指。OpenClaw-RL 的解决方案是四个完全独立的异步循环模块功能技术栈特点策略服务器为智能体生成动作推理SGLang持续服务推理请求不等待训练完成环境托管运行各类环境终端/GUI/浏览器Docker 容器每个环境实例独立运行互不干扰PRM 判别从下一状态提取奖励信号SGLang/API独立评判不阻塞其他模块训练引擎用收集到的数据更新模型参数Megatron异步消费训练数据持续梯度更新四个模块之间零协调开销。策略服务器不断生成推理结果环境不断返回下一状态PRM 不断评判训练引擎不断用最新数据更新权重。任何一个模块都不需要等待其他模块完成——就像一条流水线上的四个工位每个工位各干各的产品训练数据在工位间自然流转。这种设计带来的好处是惊人的GPU 利用率极高训练引擎永远有数据可训练不会因为等环境而空转水平扩展容易每个模块都可以独立扩容环境慢就多加几个环境实例故障隔离某个环境实例挂了不影响其他模块容错性好这里值得注意一个微妙的设计选择策略服务器使用的模型权重和训练引擎正在更新的权重之间会有一个延迟——推理用的可能是几步之前的旧权重。论文指出这种轻微的 off-policy 偏差在实践中是可以接受的因为权重更新的步幅通常很小新旧策略之间的差异有限。五、实验分析五大场景全面验证5.1 个人对话智能体8 步对话满意度翻 4 倍图3个人智能体优化前后的对比。上方是模拟学生场景下方是模拟老师场景。优化后的回复明显更贴合用户个性化需求AI 味大幅降低。个人对话智能体的训练场景最能体现 OpenClaw-RL 的独特价值。传统的对话训练需要大量人类偏好标注——找一批人给 AI 回复打分或排序。OpenClaw-RL 的做法完全不同让 AI 直接和用户聊天用户的后续回复就是训练信号。如果用户说这不是我想要的我想要更简洁的回答Binary RL 会判定上一步回复不好A−1A -1A−1OPD 会利用用户这句反馈作为额外上下文计算出更好的回复应该是什么样的token 级别指导。实验结果非常亮眼场景优化前优化后提升幅度学生角色0.170.76347%教师角色0.220.90309%而且这些提升只需要约 8 步对话就能实现——也就是说用户只需要和 AI 聊几轮AI 就能显著适应这个用户的偏好风格。这对于打造个性化 AI 助手的意义不言而喻。5.2 终端智能体Bash 准确率从 15% 飙升到 50%终端智能体在 InterCode-Bash 基准上的表现通过与 Bash 终端的实时交互训练智能体学会了更准确地理解命令语义更好地处理错误输出并自我纠正在多步骤任务中保持连贯的执行策略从训练曲线来看终端智能体的准确率在 RL 训练过程中呈现出稳定的上升趋势——从起始的约 15% 一路攀升到约 50%且没有明显的过拟合迹象。这说明下一状态信号终端输出提供了足够丰富和稳定的训练信号。5.3 GUI 智能体OSWorld 上的稳步提升GUI 智能体在 OSWorld 基准上从约 26% 提升到约 31%。提升幅度看起来不大但要知道 OSWorld 是一个极具挑战性的基准——它要求智能体在真实的桌面操作系统中完成复杂的多步骤任务涉及窗口切换、菜单导航、表单填写等多种操作。在 GUI 场景中下一状态信号是屏幕截图的变化。PRM 通过对比操作前后的截图来判断操作是否朝着正确方向推进。这是一个视觉理解和动作评估的综合挑战能取得持续正向的训练效果已属不易。5.4 SWE 智能体代码修复能力的系统性提升SWESoftware Engineering智能体在 SWE-bench Verified 上的 Pass1 从约 5% 提升到约 17.5%。在 SWE 场景中下一状态信号主要来自代码编辑后的 lint 检查结果单元测试的运行输出CI/CD 流水线的状态反馈这些信号天然具有评估指导的双重性质测试失败不仅告诉你代码有问题还通过错误堆栈、断言失败信息等告诉你问题出在哪里。PRM 可以从这些丰富的文本信号中提取精确的逐步奖励。图4四种通用智能体场景的训练曲线。从左到右、从上到下依次为终端InterCode-Bash、GUIOSWorld、SWESWE-bench Verified、工具调用。所有场景均展现出持续的正向训练趋势。5.5 工具调用智能体API 交互的学习工具调用智能体从约 8% 提升到约 17%。在这个场景中智能体需要学会正确地调用各种外部 API——选择正确的 API、传递正确的参数、处理返回结果。API 返回的 JSON 响应或错误码就是天然的下一状态信号。一个400 Bad Request和具体的错误描述missing required field: user_id提供了比任何人工标注都更精确的反馈。5.6 消融实验Binary RL 与 OPD 各自的贡献论文通过消融实验验证了两条路径的互补性只用 Binary RL能提供稳定的训练方向但缺乏 token 级别的精细指导收敛较慢只用 OPD能提供精细的梯度方向但缺乏明确的好坏判断有时方向不够稳定两者组合取长补短既有稳定的优化方向又有精细的 token 级引导效果最佳这验证了论文的核心设计直觉评估信号和指导信号是下一状态的两个互补侧面缺一不可。六、与相关工作的对比OpenClaw-RL 到底新在哪为了更清晰地定位 OpenClaw-RL 的贡献我们将它与几个代表性方法做对比维度RLHF/DPOGRPOAgent-specific RLOpenClaw-RL训练信号来源人类偏好标注结果奖励手工设计的环境奖励环境自然产生的下一状态是否需要额外标注需要大量不需要需要设计奖励函数完全不需要场景通用性仅限对话仅限推理单一场景统一框架覆盖所有场景信号粒度轨迹级轨迹级任务级步骤级PRM token级OPD在线学习通常离线在线在线在线额外模型需要奖励模型不需要不需要PRM可选OPD 复用策略模型最突出的差异在于通用性和信号粒度。GRPO 虽然也是在线学习但它只利用最终结果奖励在长轨迹的 Agentic 场景下信用分配能力有限。而 OpenClaw-RL 通过 PRM 的逐步评判和 OPD 的 token 级蒸馏提供了远比 GRPO 更精细的训练信号。另一个值得注意的技术关联是Hindsight Policy Distillation后见之明策略蒸馏。OPD 的核心思想——“让模型在看到未来信息后重新生成并用这个增强版输出指导原始策略”——与 Hindsight 系列方法一脉相承。但 OPD 的创新在于它不需要训练一个单独的教师模型而是直接利用当前策略模型在增强上下文下的输出作为教师信号实现了自我蒸馏。七、深入思考这篇论文真正在解决什么问题7.1 表面与深层表面上看OpenClaw-RL 是一个智能体 RL 训练框架。但往深处想它实际上在回答一个更根本的问题通用智能体的奖励信号应该从哪里来过去几年RL 社区在 reward design 上投入了大量精力——reward modeling、reward hacking、reward shaping、inverse RL……各种技术试图解决如何获得好的奖励信号这个问题。但 OpenClaw-RL 的回答出人意料地朴素奖励信号一直就在那里我们只是没去看。每次智能体和环境交互环境都在说话。终端在说command not foundGUI 在说页面变了用户在说不是这个意思。这些反馈比任何人工构造的奖励信号都更真实、更即时、更丰富。7.2 PRM 是关键但也是瓶颈论文中 PRM 的角色值得特别关注。它承担着从自然语言/视觉形式的下一状态信号中提取标量奖励的任务——本质上是一个理解环境反馈的能力。这引出一个隐含的假设PRM 需要足够强大能正确理解各种形式的环境反馈。如果 PRM 把一个报错信息误判为成功整个训练流程就会往错误方向走。这对 PRM 的通用理解能力提出了很高的要求。在实践中论文使用了较强的模型作为 PRM如通过 API 调用的高能力模型这在一定程度上缓解了这个问题。但这也意味着训练成本中有一部分转移到了 PRM 的推理成本上。随着训练规模扩大PRM 的调用次数会线性增长。7.3 OPD 的理论启示OPD 最有趣的地方在于它揭示了一个被低估的现象同一个模型在不同上下文下的行为差异本身就可以作为训练信号。想一想模型在看到下一状态之前和之后对同一个 token 的概率预测是不同的。这个概率差异精确地编码了下一状态信号所包含的关于当前动作质量的信息。不需要训练任何额外的模型仅通过对比同一个模型在两种条件下的输出就能提取出有用的梯度信号。这让人联想到一个更广泛的原则信息差即训练信号。只要存在信息不对称有/没有下一状态就可以从中提取有用的学习信号。这个思路可能在 RL 之外也有广泛的应用。7.4 异步架构的工程思考四模块异步架构的设计选择背后隐藏着一个深层权衡数据新鲜度 vs. 系统吞吐量。全同步设计下训练引擎永远用最新权重生成的数据进行训练数据绝对新鲜但 GPU 会花大量时间等待环境返回结果。全异步设计下系统吞吐量最大化但训练数据可能是几步之前的旧权重生成的存在 off-policy 偏差。OpenClaw-RL 选择了几乎完全异步的极端方案这说明在 Agentic RL 的场景下单个交互耗时长、轨迹长度大吞吐量的收益远大于 off-policy 偏差的损失。这个经验性结论对于后续构建大规模 Agentic RL 系统具有重要的参考价值。八、局限性与未来展望坦率地说OpenClaw-RL 也有一些值得关注的局限PRM 的泛化能力当前 PRM 是通过 API 调用强模型来实现的。如果未来要部署到更多样化的场景如机器人控制、游戏、科学实验PRM 能否准确理解这些领域的环境反馈是一个问号。个人智能体的评估难度个人对话的好不好本质上是主观的。PRM 判定好的回复用户未必同意。目前实验中的满意度评分是通过模拟用户LLM 扮演来评估的与真实人类的偏好可能存在偏差。训练效率的绝对值虽然异步架构大幅提升了 GPU 利用率但 Agentic 场景的环境交互本身就很慢一次 SWE 任务可能需要几分钟。在大规模训练中环境吞吐量仍然可能是实际瓶颈。安全性考量在线学习意味着智能体在边用边学。如果智能体在学习过程中执行了有害操作比如在终端中运行了危险命令虽然环境会给出负面反馈但伤害已经造成了。如何在在线学习的同时确保安全性是一个需要进一步探索的问题。展望未来OpenClaw-RL 打开的方向非常广阔多模态环境信号目前主要处理文本和截图形式的下一状态信号未来可以扩展到音频、视频、传感器数据等多智能体协作多个智能体之间的交互也会产生下一状态信号框架可以自然扩展到多智能体 RL持续学习在线学习的特性天然支持持续适应——智能体可以随着用户习惯的变化而不断调整九、总结OpenClaw-RL 用一个朴素但深刻的洞察——环境交互自然产生的下一状态信号已经包含了训练智能体所需的全部信息——统一了对话、终端、GUI、SWE、工具调用五大类智能体的强化学习训练。通过 Binary RL提供步骤级评估信号和 OPD提供 token 级指导信号的互补组合配合 PRM 的密集信用分配和四模块全异步流水线OpenClaw-RL 在所有测试场景上都取得了显著且一致的提升——个人助手满意度 347%终端准确率从 15% 到 50%SWE Pass1 从 5% 到 17.5%。如果要用一句话概括这篇论文的核心贡献它证明了下一状态信号是智能体 RL 训练的通用货币——不管你是什么类型的智能体不管你在什么环境中操作只要有交互就有训练信号。这个认知上的突破可能比任何具体的实验数字都更有价值。论文信息标题OpenClaw-RL: Train Any Agent Simply by Talking作者Yinjie Wang, Xuyang Chen, Xiaolong Jin, Mengdi Wang, Ling Yang机构Peking University, Princeton University, Gen-Verse链接https://arxiv.org/abs/2603.10165代码https://github.com/Gen-Verse/OpenClaw-RL觉得有启发的话欢迎点赞、在看、转发。跟进最新AI前沿关注我的微信公众号机器懂语言

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2413817.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！