复旦北大：Harness也能Agentic自进化了

news2026/5/6 1:50:12

Coding Agent 的性能不仅取决于底层大模型更取决于包围它的Harness系统提示、工具、中间件、记忆等。复旦北大提出AHEAgentic Harness Engineering通过组件可观测性、经验可观测性、决策可观测性三大支柱让另一个「进化 Agent」自动迭代优化 Harness。10 轮迭代即可在 Terminal-Bench 2 上将 pass1 从 69.7% 提升至 77.0%不仅超越人类设计的 Codex-CLI71.9%且进化后的Harness能零样本迁移到 SWE-bench 和多个异构模型家族。被忽视的「Harness Engineering」瓶颈Coding Agent 的进展不只取决于 Base Model 的智商更取决于它外围的工程架构——Harness。Harness 是模型与外部世界之间的「中介层」包括System Prompt塑造工作风格与推理策略Tools文件系统、Shell、编辑器的调用接口Middleware上下文控制、执行编排、故障恢复Skills / Sub-agents可复用的工作流与任务委托Long-term Memory跨会话的持久经验当前 Harness 设计完全是手工作坊模式开发者阅读海量轨迹日志识别失败模式再手动修改 Prompt 或工具。随着 Base Model 快速迭代GPT-5.4、DeepSeek-V4、Qwen3.6 等这种手动循环已无法跟上模型能力的进化速度。核心问题如何让一个「进化 Agent」自动、稳定地联合优化 Harness 的所有可编辑组件作者抛出了一个反直觉的判断进化 Agent 稳定优化 Harness瓶颈不是因为 Agent 不够聪明而是因为整个进化循环缺乏可观测性。AHE 核心设计三大可观测性支柱AHE 的核心洞察是瓶颈不在 Agent 能力而在可观测性Observability。只要进化 Agent 能拿到结构化的上下文和清晰的动作空间它就能可靠地收敛到更好的 Harness 设计。整个闭环如图 2 所示由三大支柱支撑AHE 三大可观测性支柱闭环2.1 组件可观测性文件级解耦 HarnessAHE 基于NexAU 框架将 Harness 显式解耦为7 种正交组件类型每种都是文件系统中独立的文件System PromptTool Description Tool ImplementationMiddlewareSkillSub-agent ConfigurationLong-term Memory这种解耦的关键在于每个失败模式都能映射到单一组件类别。修改中间件不需要动 Prompt新增技能不需要改工具代码。每个逻辑编辑对应一次 git commit天然支持文件级 diff 和回滚。种子 Harness 被刻意设计得极简只有一个 shell 执行工具无中间件、无技能迫使后续每个组件都必须靠实测数据「挣」到自己的位置。2.2 经验可观测性分层蒸馏轨迹证据原始轨迹是数百万 token 的「噪音海洋」。AHE 引入Agent Debugger框架将轨迹视为可导航的文件环境让 Debugger Agent 用通用 shell/script 工具逐条分析输出两层报告Per-task Analysis每个任务的根因分析成功/失败模式Benchmark-level Overview聚合所有任务的全局概览作为每轮进化的入口。原始轨迹也保留在侧供进化 Agent 在需要时钻取验证。这种**渐进式披露Progressive Disclosure**既省 token又保证决策有据可依。2.3 决策可观测性可证伪的编辑契约进化 Agent 每轮读取分层证据后决定增删改哪些组件。但 AHE 对编辑施加两道约束让每次修改都成为可证伪的契约可控性进化 Agent 只能在 Harness 工作区内写入运行目录、验证器、LLM 配置均为只读种子 System Prompt 不可删除——防止它走捷径比如禁用验证器、换更强的模型。自声明预测每个编辑附带一条 Manifest 记录包含失败证据推断的根因目标修复方案预测影响预期修复哪些任务可能引发哪些回归下一轮 rollout 后系统将预测集合与真实任务级 delta 做交集给出每个编辑的 verdict确认有效 / 回滚。这用跨轮实测替代了「自我合理化」。Algorithm 1 总结了完整的外循环实验结果从「手工调参」到「自动进化」3.1 RQ1AHE 能否超越人类与自动化基线在 Terminal-Bench 289 个任务k2 rollout/任务上运行 10 轮 AHE耗时约 32 小时AHE 在 Terminal-Bench 2 上的迭代曲线关键结果AHE 从种子69.7%提升至 **77.0%**超越人类设计的 Codex-CLI71.9%和自进化基线 ACE68.9%、TF-GRPO72.3%。按难度拆分AHE 在 Easy 和 Medium 上全面领先Hard 层级略低于 Codex-CLI论文分析这是组件间非加性干扰所致见 RQ3。为什么 ACE 和 TF-GRPO 追不上它们只编辑单一表面ACE 蒸馏自然语言 PlaybookTF-GRPO 强化成功工具序列但从不触碰工具实现、中间件和记忆。而 AHE 的增益恰恰来自这些「Prompt 之外」的组件。3.2 RQ2进化结果是否过拟合AHE 的 Harness 是在 GPT-5.4 high Terminal-Bench 2 上进化出来的。论文测试了两种零样本迁移跨基准迁移SWE-bench-verified配置Aggregate SuccessTokens/TrialNexAU₀ Seed基准基准ACE↓ 低于种子11%~29%TF-GRPO↓ 低于种子21%AHE最高-12%AHE 在 SWE-bench-verified 上取得了最高整体成功率且比种子少用12% token。ACE 和 TF-GRPO 的 Prompt 级注入在跨任务表面时变成「昂贵噪音」而 AHE 将行为编码进工具、中间件和记忆中避免了每轮重复推导的开销。跨模型迁移冻结 Harness 换基座跨模型迁移结果将进化后的 AHE Harness 直接套用到 5 个不同基座上同家族不同推理档位跨家族全部取得正向增益GPT-5.4 medium:2.3 ppGPT-5.4 high:7.3 ppGPT-5.4 xhigh:2.3 ppGemini-3.1-flash-lite:5.1 ppDeepSeek-v4-flash: 10.1 ppQwen-3.6-plus:6.3 pp规律离饱和越远的模型增益越大。这说明 AHE 编码的是通用协调模式何时调用工具、如何保护状态、如何闭环验证而非特定模型的「提示词玄学」。强模型能自己从 Prompt 中推导出这些模式所以边际增益小能力稍弱的模型则更依赖 Harness 把这些模式「固化」下来。3.3 RQ3增益从哪来自归因可靠吗组件消融谁才是真正的功臣论文将 AHE 的四个核心组件逐一「移植」回种子 Harness单独测量贡献组件单独移植后的增益 Long-term Memory5.6 pp Tools3.3 pp Middleware2.2 pp System Prompt-2.3 pp回归洞察Memory、Tools、Middleware 都是正贡献System Prompt 单独移植反而拖后腿——说明 AHE 的 Prompt 是「配合型选手」依赖其他组件才能发挥作用。三个正项相加11.1 pp但完整 AHE 只提升7.3 pp。原因是组件间非加性交互Memory、Middleware 和 Prompt 都推高了「验证-闭环」行为堆叠后在 Hard 任务上造成冗余重试消耗了长程预算。自归因可靠性能预测修复但盲于回归进化 Agent 每轮都会预测「下一轮回修复哪些任务」以及「哪些任务可能回归」。Fix Precision RecallFix Precision: 33.7%随机基线 6.5%Fix Recall: 51.4%随机基线 10.6%这说明进化 Agent 的修复 targeting 是有证据支撑的不是瞎猜——每次编辑大约 5 倍优于随机。Regression Precision RecallRegression Precision: 11.8%随机 5.6%Regression Recall: 11.1%随机 5.4%回归预测仅略高于随机。这是 AHE 当前最大的局限进化 Agent 能可靠地知道自己要修什么但预见不到自己的改动会搞坏什么。论文将「回归预见能力」定位为未来自进化循环最清晰的改进方向。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2586796.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！