2026 年,AI 编程 Agent 的真正分水岭——Harness 详解
2026 年AI 编程 Agent 的真正分水岭到底在哪里Harness 才是 AI Agent 的胜负手 - 全景信息图一个反直觉的结论这几个月你应该也发现了各家模型隔三差五就刷一波榜GPT-5.4 来了Opus 4.6 来了Gemini 3.1 来了Grok 4 也来了大家讨论最多的永远是哪个模型写代码最牛但有个开发者最近做了一组实验他把一个编辑工具的格式从str_replace换成了自己发明的hashline什么模型都没换Grok Code Fast 1 的成功率直接从 **6.7% 飙到 68.3%**——翻了十倍。你拿最新的模型升级能给你涨几个点这个人叫Can Bölük一个游戏安全出身的开发者他维护着一个叫 oh-my-pi 的开源编程 Agent提交了4000 多个 commit底层用 Rust 写了 7500 行原生引擎就干一件事——打磨 harness什么是 Harness现在社区里有一个越来越清晰的共识Agent Model HarnessAgent Model Harness 公式图解Model就是大模型本身——GPT、Claude、Gemini负责理解和推理Harness是模型之外的一切——系统提示词、工具定义、编辑格式、上下文管理、错误处理、重试逻辑、安全边界……就是给模型套上的那套装备Martin Fowler《重构》作者刚刚专门写了一篇长文 《Harness Engineering for Coding Agent Users》给了一个特别精辟的定义Harness 由两部分组成Guides前馈控制和Sensors反馈控制。Guides 在 Agent 行动之前引导它做对Sensors 在 Agent 行动之后帮它自我纠正。打个比方模型是一匹千里马harness 是缰绳、马鞍和马蹄铁没有好的 harness千里马也只是在原地打转harness 整体架构Guides 前馈 Sensors 反馈编辑工具Harness 问题的缩影为什么 Can Bölük 的实验那么炸裂因为他击中了 harness 最痛的痛点——编辑工具Edit ToolAgent 写代码的核心循环其实很简单读文件 → 理解问题 → 生成修改 → 写回文件。但写回文件这一步各家的方案差异极大而且没有一个是完美的方案代表产品核心问题apply_patchCodex自创 diff 格式别的模型根本不认识Grok 4 失败率 50.7%str_replaceClaude Code要求模型完美复现原文每个字符包括空格缩进GitHub 上有专门的 issue 吐槽帖神经网络合并Cursor专门训了个 70B 模型来做编辑合并400 行以下文件干脆全文重写JetBrains 的 Diff-XYZ 论文和 EDIT-Bench 基准测试也证实了没有任何一种编辑格式在所有模型和场景下都占优Can Bölük 的解法叫Hashline原理很简单当模型读文件时每一行都带上一个 2-3 个字符的内容哈希标签11:a3|function hello() {22:f1| return world;33:0e|}模型编辑时引用这些标签如果文件在读取后被修改哈希不匹配编辑直接被拒绝模型不再需要完美复现原文内容只需要记住一个短标签结果16 个模型、3 种编辑格式、每种 540 个任务的大规模测试hashline 几乎在所有模型上匹配或超越了 str_replace弱模型获益最大。而且 Grok 4 Fast 的输出 token 下降了 61%——因为不用再烧 token 做重试了Can Bölük 总结Gemini 成功率提升 8%比大多数模型升级带来的提升都大而且训练成本是零。你在怪飞行员技术差其实是起落架坏了。三种编辑方案 PK · Hashline 横扫全场Oh-My-* 生态Harness竞赛的前线理解了 harness 的重要性再看最近 GitHub 上涌现的一批 oh-my-* 项目就完全说得通了它们本质上都在干同一件事给不同的 Agent 引擎套上更强的 harnessoh-my-claudecode (⭐ 26.5k · 2470 commits)GitHub: https://github.com/Yeachan-Heo/oh-my-claudecode号称“Don’t learn Claude Code. Just use OMC.”这是目前 Claude Code 生态里最活跃的插件它加了21 个专业化 Agent每个都有独立的系统提示词和工具集包含 architect、researcher、designer、tester、devops 等角色覆盖从需求分析到部署上线的全链路。Team 模式是它的杀手级功能。它跑的是一个 5 阶段流水线team-plan → team-prd → team-exec → team-verify → team-fix。一句/team 3:executor fix all TypeScript errors就能启动多 Agent 并行协作每个 Agent 在 tmux 窗口里独立运行。三种执行模式满足不同场景autopilot描述需求自动拆解、分配、执行、验证ralphRead-Act Loop with Persistent Handling持续执行循环直到任务完成或你手动停止ultrawork无限持久模式适合超大任务跨模型协作也是亮点。/ccg命令实现 Claude Codex Gemini 三模型合成。omc askProvider Advisor可以调用 Codex CLI 或 Gemini CLI 做交叉验证——同样的问题问三家综合最优答案。其他值得一提的HUD 状态栏实时显示编排指标、token 消耗、Agent 状态Wiki 知识层灵感来自 Karpathy 的 LLM Wiki 概念Agent 可以积累和检索项目知识OpenClaw 通知系统Discord/Telegram 实时推送执行状态Rate Limit 智能等待触发限流后自动挂起、到期恢复Autoresearch 模式轻量级监督的自主研究运行时安装足够简单/plugin marketplace add https://github.com/Yeachan-Heo/oh-my-claudecode/plugin install oh-my-claudecode/setup然后/autopilot build a REST API for managing tasks坐等收菜。oh-my-openagent原 oh-my-opencodeGitHub: https://github.com/code-yeongyu/oh-my-openagent自称 **“the best agent harness”**比 oh-my-claudecode 更激进它直接跟 Anthropic 杠上了——因为 Anthropic 封杀了 OpenCode 对 Claude 的访问它的态度是**“Claude Code 是个好监狱但终究是监狱”**核心理念不锁定任何单一模型。Claude 做编排GPT 做推理Kimi 做 codingGemini 做创意——未来是编排所有模型。作者为此烧了$24,000 的 LLM token 费来开发这套系统。最核心的概念叫Discipline Agents纪律型 Agent每个都有独特的行为准则Sisyphusclaude-opus-4-6/kimi-k2.5/glm-5主编排器负责规划和调度名字取自永不停歇推巨石的西西弗斯Hephaestusgpt-5.4深度自主执行者给目标就行不需要手把手以锻造之神命名Prometheusclaude-opus-4-6/kimi-k2.5战略规划师用苏格拉底式提问帮你想清楚再动手Oracle知识型 Agent负责搜索和信息聚合Librarian文档管理专家IntentGate意图网关是它独创的概念——先分析用户的真实意图再行动。你说帮我改一下这个 bug它会先判断你是想快速修还是想彻底重构避免 Agent 对指令的字面误解。Category-Based Model Routing基于类别的模型路由也很聪明——不是按模型名指定而是按任务类别visual-engineering、deep、quick、ultrabrain自动分发底层绑定最合适的模型。Skill-Embedded MCPs每个 Skill 自带 MCP 服务器需要时按需启动不需要全局挂载。内置三个高质量 MCPExa网络搜索、Context7官方文档查询、Grep.appGitHub 代码搜索。其他硬核功能Hash-Anchored Edit Tool灵感直接来自 oh-my-pi 的 hashlineBackground Agents5 专家并行执行Todo Enforcer Comment Checker强制执行 TODO 清理禁止AI 味注释比如 “// This function handles…” 这种废话注释Session RecoveryAPI 故障、上下文超限都能自动恢复**/init-deep**自动生成分层 AGENTS.md给每个子目录写专属上下文完全兼容 Claude Code 的 hooks、commands、skills、MCPoh-my-codexGitHub: https://github.com/Yeachan-Heo/oh-my-codex针对 OpenAI Codex CLI 的 harness 层核心定位Codex 负责执行OMX 负责流程标准工作流是一个 4 阶段管道$deep-interview深度需求访谈→$ralplan生成执行计划→$team并行执行/$ralph循环执行直到完成。先搞清楚要做什么再规划怎么做最后上手干。.omx/目录存储所有状态——计划、日志、记忆、运行时状态每次执行都有迹可循。omx explore做只读的代码库探索omx sparkshell做有边界的 shell 验证。通过.codex/hooks.json对接 Codex 原生 hook 系统加上 HUD 监控面板你能清楚看到每一步在干什么。oh-my-pi (⭐ 2.8k · 4018 commits)GitHub: https://github.com/can1357/oh-my-pi下面是 oh-my-pi 的 LSP 集成效果和 hashline 编辑工具的实际截图oh-my-pi LSP 集成Can Bölük 的小兴趣项目实际上是整个 harness 创新的源头它是一个完全独立的终端编程 Agent不依赖任何现有 CLI——底层用Rust 写了约 7,500 行原生 N-API 引擎编译成 11 个 native 模块grep、shell、text、keys、highlight、glob、task、ps、prof、image、clipboard、html性能拉满除了 hashline它还有一堆硬核功能LSP 集成支持 40 语言的 IDE 级代码智能加上 AST-Grep 做 25 种语言的模式感知代码搜索TTSRTime Traveling Streamed Rules零上下文消耗的规则系统。普通的系统提示词会占用宝贵的上下文窗口TTSR 的规则只在模型输出匹配特定模式时才时间旅行式注入平时完全不占位30 AI Provider 支持通过/login命令接入 OpenAI、Anthropic、Google、xAI、DeepSeek、Mistral 等所有主流平台支持多凭证轮换和用量感知选择Model Rolesdefault日常、smol快速小任务、slow深度推理、plan规划、commit提交信息按角色自动选模型Browser 工具内置 14 个隐身脚本绕过反爬SSH 工具远程服务器命令执行Cursor Provider可以当 Cursor 的后端用图片生成集成 Gemini 的图片生成能力65 内置主题终端也要好看这四个项目画出了 harness 军备竞赛的全景图你的 Agent 能有多强取决于你给它套的装备有多硬。而且它们之间还在互相借鉴——oh-my-openagent 的 Hash-Anchored Edit Tool 直接学的 oh-my-pi 的 hashlineoh-my-codex 和 oh-my-claudecode 共享 ralph/team 等执行模式。Oh-My-* 生态全景谁给谁套 HarnessClaude Managed AgentsAnthropic 的官方 Harness说完开源社区的探索再来看 Anthropic 官方他们最近推出了Claude Managed Agents本质上就是 Anthropic 自己下场做了一个托管式 harness 服务。是什么下面这张图来自 Anthropic 工程博客展示了 Managed Agents 的整体架构——Brain、Hands 和 Session 三层解耦Claude Managed Agents 架构Claude Managed Agents · Meta-Harness 架构图解根据 官方文档Claude Managed Agents 是一个预构建、可配置的 Agent Harness运行在托管基础设施上。它由四个核心概念组成概念说明Agent模型 系统提示 工具 MCP 服务器 SkillsEnvironment配置好的云容器预装 Python/Node.js/Go网络规则Session运行中的 Agent 实例执行特定任务Events应用和 Agent 之间的消息流SSE 流式为什么要做这个Anthropic 工程团队在 官方博客 里讲了他们的设计哲学这段话特别关键Harness 编码的是对 Claude 能力的假设而这些假设会随着模型进步而过时。Claude Sonnet 4.5 在上下文接近极限时会焦虑地草草收工所以 harness 里加了上下文重置机制。但到了 Opus 4.5这个行为消失了重置机制反而成了累赘。所以他们的解法是把 harness 本身做成可替换的抽象层。大脑和双手分离这是 Managed Agents 最精彩的设计。他们把 Agent 拆成了三部分Brain大脑Claude harness 循环Hands双手沙箱容器、工具执行Session记忆事件日志独立于大脑和双手Brain 和 Hands 解耦架构每一部分都可以独立失败、独立替换。容器挂了harness 把它当作一次工具调用失败让 Claude 决定是否重试新容器随时初始化。harness 挂了新 harness 读取 session 日志从上次事件恢复。这个设计带来的性能提升也很炸裂**p50 TTFT首 token 延迟下降了约 60%p95 下降超过 90%**。因为不需要每次都等容器启动。安全上也更干净生成的代码在沙箱里执行凭证永远不会进入沙箱。Git token 在容器初始化时注入到 git remoteMCP OAuth token 通过独立代理处理。Agent 永远碰不到真正的密钥。和开源 harness 的关系Anthropic 在博客最后说了一句意味深长的话Managed Agents 是一个 meta-harness元 harness它对 Claude 未来需要什么样的具体 harness 不持立场。Claude Code 是一个优秀的 harness特定任务的 Agent harness 在窄领域表现更好。Managed Agents 可以容纳任何一种。翻译过来Anthropic 不是要取代 oh-my-claudecode 们而是提供了一个底层基础设施让各种 harness 都能跑在上面。不过结合他们之前封杀 OpenCode 的操作这个开放到底有多开放还有待观察。所以harness 才是分水岭这个说法对吗我觉得对了一大半但需要补充对的部分在模型能力差距日益缩小的今天harness 确实是决定 Agent 实际表现的最大变量。Can Bölük 的基准测试已经证明光改编辑工具的格式就能让弱模型翻十倍强模型也能提升 5-14 个百分点。Martin Fowler 说得好光有反馈没有前馈Agent 会重复犯同样的错光有前馈没有反馈规则永远不知道有没有用。两者缺一不可。需要补充的部分harness 的提升有天花板。Martin Fowler 也坦言对于诊断错误、“过度工程”、误解指令这类高阶认知问题目前的 harness 手段还不能可靠地解决。这些最终还是要靠模型能力的提升。所以更准确的说法是模型决定了 Agent 的能力上限harness 决定了 Agent 能发挥出多少。2026 年的竞争格局两者缺一不可但 harness 的投资回报率当前远高于模型本身。总结开源 Harness 生态Claude Managed Agents定位给现有 Agent 加装更强装备提供托管式 harness 基础设施模型绑定多模型支持Claude/GPT/Gemini/Kimi仅 Claude核心优势灵活、可深度定制、社区驱动零运维、安全隔离、官方优化适合谁愿意折腾、追求极致控制的开发者快速起步、不想自己搭基础设施的团队学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2506380.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!