记录我重写了 Agent 的 Plan 系统:为什么 Replan 是可进化 Agent 的关键

news2026/3/14 12:53:34
摘要Agent 项目都在讲自主规划但落到工程上往往是开场列一份 Todo或者让模型临场改主意。我最近在维护SkillLite的时候遇到一个在更底层的事把重新规划做成一个可观测、可度量、可沉淀为进化信号的系统事件。本文结合真实的 Rust 代码聊聊为什么我最终选择了显式 replan而不是更自然但难以计量的隐式再决策。先说选型各家 Agent 的 Replan 到底长什么样在展开实现之前我觉得更重要的是先把几条路线摆出来比较否则很容易读了半天代码却不知道这些取舍是在对抗什么。如果只聚焦在replan 机制本身我会把主流方案分成这五类系统Replan 的典型形态一句话理解最适合的场景CursorPlan Mode执行前生成可编辑 Markdown 计划用户确认后执行执行中无自动 replan先规划再执行replan 靠用户发起IDE 内编码任务、人工审核计划、改动有限的单次任务Claude Code模型调用TodoWrite持续更新 todo 列表更新任务板长任务推进、人机共视、状态可见OpenClaw观察结果后自然再决策必要时借助 Plan Skill 重新分解下一轮重新判断怎么做灵活协同、复杂任务、可变规划深度Manusplanner 在外部工作区如task_plan.md持续修订路线图持续改写任务路线图多 agent 编排、长上下文任务、强 context engineeringSkillLite模型显式调用update_task_plan替换待执行计划一次正式的计划替换事件单 Agent、自进化、可度量、可复盘结论重视人工审核计划、确保每步可控→CursorPlan Mode 路线很强重视任务可见性和进度维护→Claude Code那类 Todo 路线很强重视灵活推理和自然再决策→OpenClaw这种路线很强重视多 agent 编排、大任务上下文管理→Manus这类路线很强重视 replan 可计数、可统计、可沉淀为 evolution 信号→SkillLite当前这套更合适SkillLite选择的不是最智能的方案而是当前目标下追求可衡量的工程化的方案。一、问题从哪里来隐式 Replan 的三个死角Agent 的replan 是一个比较常见的模块但很多系统里的 replan 本质上是隐式发生的这轮执行失败了模型下一轮换了个思路你感觉它好像重新规划了一下但系统里没有任何正式的 replan 记录这种方式做 demo 够用但真正想做自进化系统三个缺点会很快暴露出来。一没法定义到底有没有 replan失败后重试一次算不算 replan整套计划重写算不算系统里没有明确事件这些边界都是模糊的。二没法统计失败原因是任务拆错了工具选错了还是最初规划就偏了如果 replan 只是模型临场换了个说法你之后分析不出任何稳定规律。三没法复现今天第 5 轮改主意明天第 3 轮就换了。对 demo 来说无所谓对工程系统来说这种行为根本没法复盘也不可能进化。所以SkillLite从一开始就定下一条设计原则replan 不能只是模型脑子里的临时改主意必须是系统中的正式且可记录事件。二、SkillLite 的做法让 Replan 变成工具调用SkillLite的 planning 结构比较直接对话开始前Agent 先生成一份任务列表每个任务包含四个字段{ id: u32, description: String, tool_hint: OptionString, // 建议用哪个工具/skill 执行 completed: bool, }tool_hint是和 Claude Code Todo 最大的区别。普通 Todo 只知道要做什么而tool_hint额外带了原本打算怎么做。这一点对 evolution 信号很关键后面会展开。执行过程中如果发现当前计划不适用模型不是换个说法继续答而是显式调用一个工具update_task_plan调用之后系统会把这次 replan 记录为一个离散事件replan_count加一新计划替换待执行部分。从这一刻起replan 就是一个可计数、可追踪、可回放的事件不再是模糊的它好像改过主意。三、核心代码解读3.1handle_update_task_planreplan 不是口头建议而是状态修改代码位于crates/skilllite-agent/src/agent_loop/helpers.rspub(super) fn handle_update_task_plan( arguments: str, planner: mut TaskPlanner, skills: [LoadedSkill], event_sink: mut dyn EventSink, ) - ToolResult { // 1. 解析 LLM 提交的新任务列表 // 2. 校验tasks 不能为空 // 关键新计划要先过和初始 planning 一样的清洗 增强 planner.sanitize_and_enhance_tasks(mut new_tasks, skills); // 保留已完成任务只替换待执行部分 let completed_tasks: VecTask planner .task_list .iter() .filter(|t| t.completed) .cloned() .collect(); let next_id completed_tasks.iter().map(|t| t.id).max().unwrap_or(0) 1; for (i, t) in new_tasks.iter_mut().enumerate() { t.id next_id i as u32; t.completed false; // 新计划里的 completed 一律重置 } let mut merged completed_tasks; merged.extend(new_tasks.clone()); planner.task_list merged; // 通知事件系统replan 成为可记录的离散事件 event_sink.on_task_plan(planner.task_list); ToolResult { content: format!(Task plan updated ({} tasks). Continue with the new plan., new_tasks.len()), is_error: false, ..Default::default() } }这段代码背后有三个设计决策值得注意第一replan 是状态修改不是文字风格变化。系统里planner.task_list真实改变了不是模型只是说了一段不一样的话。第二已完成任务被保留。新计划不会覆盖历史只替换还没做的部分避免replan 一次之前努力清零。第三新计划不是直接执行的要先被系统接住。sanitize_and_enhance_tasks这层防御非常关键。3.2sanitize_and_enhance_tasks模型可以提建议系统负责接住这是一个很容易被忽视但非常关键的实现在crates/skilllite-agent/src/task_planner.rsfn sanitize_task_hints(tasks: mut [Task], skills: [LoadedSkill]) { for task in tasks.iter_mut() { if let Some(ref hint) task.tool_hint { if !Self::is_hint_available(hint, skills) { tracing::info!( Stripped unavailable tool_hint {} from task {}: {}, hint, task.id, task.description ); // 把幻觉出来的 hint 直接清掉不让它进执行链路 task.tool_hint None; } } } } pub fn sanitize_and_enhance_tasks(self, tasks: mut VecTask, skills: [LoadedSkill]) { Self::sanitize_task_hints(tasks, skills); self.auto_enhance_tasks(tasks); // 检测缺失步骤并自动补齐 }做这层的原因模型在 replan 时同样会幻觉。常见的问题有写出根本不存在的tool_hint、漏掉关键步骤、把没完成的任务标成completed。如果不做清洗replan 看起来像纠错实际上只是重新生成了一份新的错误计划。最终原则只有一句话replan 和初始 planning必须走同一套清洗和增强逻辑。3.3 软上限允许反思但不允许无限犹豫把 replan 做成显式事件之后很快会遇到一个新问题模型有时候会陷入不停改计划但不执行的循环。SkillLite在crates/skilllite-agent/src/agent_loop/execution.rs里做了软上限const MAX_REPLANS_PER_SESSION: usize 3; if is_replan { state.replan_count 1; let mut r handle_update_task_plan(arguments, planner, skills, event_sink); if !r.is_error state.replan_count MAX_REPLANS_PER_SESSION { r.content.push_str( \n\n⚠️ You have now replanned 3 time(s). \ Please STOP replanning and EXECUTE the current plan step by step. ); } r }同时在单任务工具调用过深时系统也会明确给出两个出口而不是只鼓励硬试pub fn build_depth_limit_message(self, max_calls: usize) - String { let current_id self.current_task().map(|t| t.id).unwrap_or(0); format!( You have used {} tool calls for the current task. \ Call complete_task(task_id{}) to record completion. \ If the current approach is clearly wrong, \ you may call update_task_plan with a revised task list instead., max_calls, current_id ) }这两段代码体现同一个工程判断不硬拦保留模型自救空间但也不放任防止系统陷入假忙状态。四、为什么没有选其他方案为什么不像 Cursor 那样做 Plan ModeCursor 的 Plan Mode 是目前编辑器 Agent 里做得比较有特色的一套用户按 ShiftTab 进入规划模式Cursor 先研究代码库、提问、生成一份带文件路径和代码引用的可编辑 Markdown 计划用户确认后再正式执行。这个设计有它的优势人机协作感很强用户能在执行前看到完整的执行路线可以直接改掉不对的步骤适合编码改动场景计划里直接标注要改哪些文件执行后有 diff 视图可回滚降低大改动的风险高风险任务先规划、人确认再执行但这套方案有一个局限replan 是人发起的不是 Agent 自主触发的。一旦进入执行阶段Cursor 的 Agent 模式就是纯 ReAct 循环每轮最多 25 次工具调用没有任何任务结构也没有 mid-execution 的自动 replan 机制。如果执行中发现计划不对只能用户重新输入重走一遍。这对提升编码体验来说已经够了。但对SkillLite想做的事完全不够用系统没法自主识别当前路径不对并触发 replanreplan 不计入任何指标没有replan_count没有 per-task 工具绑定没有tool_hint不产生 evolution 所需的工具模式信号无人值守跑批时一旦卡住就只能超时没有自救路径Cursor Plan Mode 的核心价值是人类把关编码计划而不是让 Agent 在执行中自主纠偏。两者要解决的问题根本不在同一个层面。4.1 为什么不直接照搬 Claude Code 的 TodoClaude Code的 Todo 路线有很明显的优点显式、可见、用户和模型都能实时感知任务进度。但它的核心强项是进度维护不是执行策略学习。Claude Code的 todo 项只有content、status、activeForm没有 per-task 的工具绑定。这意味着你知道哪些任务做完了但你不知道这类任务原本打算用什么工具做。而SkillLite的 evolution 引擎需要这一层信息哪类任务经常和哪个工具绑定哪些tool_hint频繁导致失败或 replan任务类型和工具模式之间有没有可学习的稳定映射所以SkillLite不能丢掉tool_hint。没有这个字段evolution 信号就弱了一层。如果说 Claude Code 的 Todo 更像执行进度结构那SkillLite的 plan/replan 更像可进化的执行信号载体。4.2 为什么不选 OpenClaw 的隐式再决策OpenClaw的规划体系我很欣赏按任务复杂度动态决定规划深度L0 到 L4执行中根据观察结果自然再决策Task Router 还支持并行波次和依赖图。但灵活恰恰是它对我的最大障碍。如果 replan 是模型下一轮自然改主意那你很难定义这次是否发生了 replan。一旦这个定义不清晰后面这些事都做不了统计首次成功率计算平均 replan 次数比较无 replan 成功和多次 replan 成功案例的差异从失败轨迹里提炼可复用规则SkillLite的 evolution 引擎强依赖这些可计数的信号。如果 replan 不是离散事件整条进化链路的数据基础就不稳了。4.3 为什么 Manus 的路线也不是当前的参考系从公开资料来看Manus是一个强 planner 强 context engineering 多 agent 协作的体系任务路线写进task_plan.md结合notes.md、context.md等外部工作区持续推进。这套方案对复杂开放任务非常适合planner 可以随时改写路线上下文外化也解决了长任务的信息压缩问题。但SkillLite当前的目标不是做一个超级总控 agent而是做一个可复制、可进化、可度量的单 Agent 最小闭环。Manus的启发对SkillLite更多是间接的外部工作区有价值、planner 和 executor 分层有价值、context 工程化很关键。但在replan 的离散可计数性这件事上它没有提供直接参考。五、为什么 Replan 是进化系统的入口不只是执行辅助做完这轮分析我越来越确信一件事SkillLite里的 planning/replanning已经不是执行层的小功能而是进化系统的入口。Agent 想真正变好靠的不是抽象意义上的更聪明而是这些更具体的能力把任务拆对给当前任务配上合适的执行策略在失败时及时换路不死磕把这些经验沉淀成下一次更好的决策这些能力必须依赖结构化信号才能沉淀下来。而结构化信号的前提就是 replan 要是一个明确发生过的事件可以被记录、被统计、被分析、被学习。从这个角度看planning 不再只是让对话更有条理而是让系统知道它到底是怎么变好的。六、后续还想继续打磨的几个点这轮把 replan 做成离散事件的设计完成后我觉得还有几个地方值得继续优化空计划时更早退出。如果 planning 结果是[]说明任务可能根本不需要工具这时继续给满额迭代预算会浪费轮数。规划解析失败要更可观测。当前 fallback 到单任务是合理的但系统最好明确打日志便于后续分析 prompt 质量。在更多卡住场景提示 replan。连续失败、无工具调用、深度用尽这些情况应该更一致地引导模型考虑改计划而不只是反复重试。七、总结系统里的 replan到底是模型偷偷改主意还是一个能被记录、度量、复用的正式事件这两者的差别比模型用哪个版本或者prompt 怎么写都要更根本。因为 replan 不只是让 Agent 能纠错它是系统能不能从每一次执行里学习的前提。SkillLite当前的选择是显式 planning 显式 replan tool_hint 绑定 软限制约束。它可能不够像人但在单细胞、可复制、可进化这个目标下应该是目前探索下来比较稳的工程解法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2411155.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…