2026 年最被高估的技术？不，Harness Engineering 是 AI 工程的下一个十年

news2026/5/14 15:26:33

模型不是瓶颈你搭的壳才是。一、一个让所有 AI 从业者沉默的数据2026 年初研究者 Nate B Jones 发表了一项看似平淡无奇的研究同一个 AI 模型同样的提示词只更换它运行的环境编程基准测试的成功率从 42% 跳到了 78%。模型没换。数据没换。提示词也没换。只是改了模型外面包裹的那层壳性能翻了将近一倍。这层壳现在有了一个正式的名字Harness马具。而围绕它展开的工程实践叫Harness Engineering驾驭工程是 2026 年 AI 工程圈最热门、也最被误解的话题。二、Harness 到底是什么2.1 一个通俗的比喻把 AI 模型比作一匹千里马。Harness 就是驾驭这匹马所需要的一切缰绳、马鞍、路线规划、围栏、训练规则。你要做的不是让这匹马更聪明而是让它跑得更稳、更快、更安全。可能说马相关的东西比较遥远不好理解咱们把大模型理解成发动机古早的Agent就好比是給发动机装上地盘轮子方向盘和刹车让这辆车能跑但是早期汽车跑不远想让汽车正常跑在路上你要为汽车安装好多东西减震系统汽车喇叭车灯转向灯顶棚雨刮等后来又安装了GPS导航自动驾驶传感器这些就属于Harness以后肯定还有更多的功能。具体来说Harness 就是你给 AI 写的项目规则文件AGENTS.md你配置的各种工具终端、文件系统、浏览器你安排的任务拆分和执行顺序你设计的测试和检查流程这些统统都算 Harness。2.2 核心公式整个行业达成了一个共识公式Agent Model Harness模型提供智能Harness 让这个智能能被实际使用。三、为什么是 2026 年3.1 三代进化要理解 Harness 为什么现在火了得先看它是怎么一步步长出来的。阶段时间核心关注比喻Prompt Engineering2022-2024怎么写好单次指令写一封好邮件Context Engineering2025动态构建上下文环境带上相关附件Harness Engineering2026 年 2 月起设计完整控制系统搭建整个办公室三层关系是层层包含的Prompt 是最内层关注怎么给 AI 下指令Context 包裹着 Prompt关注怎么给 AI 提供信息Harness 把它们全部包在里面关注怎么让 AI 持续靠谱地干完一整件事3.2 引爆点两篇博文2026 年 2 月两篇几乎同时发布的技术文章把 Harness 推上了风口浪尖。第一篇来自 OpenAI 的 Codex 团队从一个空的 git 仓库开始5 个月大约 100 万行代码1500 个 PR全部由 Agent 生成人类一行代码都没写。团队一开始只有 3 个工程师后来扩到 7 个。平均每位工程师每天合并 3.5 个 PR。他们估算如果用传统方式手写这个项目的工期应该是现在的10 倍。第二篇来自 Mitchell HashimotoHashiCorp 联合创始人、Terraform 的缔造者他把自己的 AI 采纳之旅分成六个阶段第五个阶段给了一个名字Engineer the Harness每当你发现 Agent 犯了一个错误你就花时间去工程化一个解决方案让它再也不会犯同样的错。他在项目中实践了这个理念AGENTS.md 文件里的每一行规则背后都对应着 Agent 曾经犯过的一个错。四、Harness 的五个核心模块这是本文的重点。理解了这五个模块你就理解了 Harness 的骨架。4.1 上下文架构让 AI 了解项目背景和规矩做项目的第一步是什么了解需求、项目背景和开发规范。用 AI 做项目也一样。常见做法写 AGENTS.md 规则文件告诉 AI 技术栈、代码规范、禁止事项但注意OpenAI 团队踩过一个坑——把几千行规则塞进一个大文件AI 反而更容易忽略关键信息正确做法把 AGENTS.md 当成目录来用只写大约 100 行的摘要和索引然后在docs/目录下放详细的设计文档。AGENTS.md目录约 100 行 ├── 前端规范看 docs/FRONTEND.md ├── 安全相关看 docs/SECURITY.md └── API 文档看 docs/API.mdETH Zurich 的一项研究发现CLAUDE.md / AGENTS.md 文件应该控制在 60 行以内。过长的指令文件反而会降低 Agent 的表现。4.2 执行能力给 AI 装上手脚和工具AI 模型本身只能输出文本。要让它真正帮你干活得给它配工具。工具清单Bash 终端执行命令文件系统读写代码浏览器测试网页Browser UseMCPModel Context Protocol扩展能力如读写数据库、联网搜索Skills 技能包把复杂工作流封装成技能一个反直觉的发现工具越多不一定越好。Vercel 的经验把 Agent 的工具从 15 个砍到只剩 2 个准确率反而从 80% 升到了 100%。Stripe 有大约 500 个 MCP 工具但给每个 Agent 的只是精心筛选过的子集。4.3 任务编排给 AI 安排好工作计划如果你丢给 AI 一个大需求它可能会一把梭全部搞定。但 AI 的上下文空间是有限的开发到一半信息就装不下了前面定好的方案和约束慢慢被冲淡。怎么解决基本做法Plan Mode先让 AI 出方案人工确认后再动手任务拆分大任务拆成小任务每次只做一个功能点增量开发每做完一个功能沉淀文档实现了什么、用了什么方案、还有哪些待办SubAgents 并行多个互不依赖的小任务可以让子代理并行执行4.4 反馈机制让 AI 自己检查自己的工作AI 写完代码之后可能会自信满满地说任务完成了结果你一点运行全是 Bug。所以得让 AI 自己检查跑 Linter查语法和规范问题跑自动化测试验证功能是否正确Browser Use自己打开浏览器实际操作一遍Agent 互审让另一个 AI 来审查代码如果测试没通过AI 可以自动读取报错信息分析原因并尝试修复。4.5 架构护栏防止代码越改越乱AI 生成代码有个特点它会模仿仓库里已有的代码风格哪怕是烂代码。比如同样的页面代码写了好几遍也不知道要拆分成可复用的组件。时间一长技术债就越滚越大。怎么防止架构约束 Linter查的不是代码风格而是架构规则如UI 层不能直接调用数据库层Pre-commit Hooks提交前自动拦截不合规的代码垃圾回收机制定期让 AI 扫描代码库检查有没有偏离架构规范的地方自动提交修复 PRGit 检查点每完成一个功能就提交一次相当于打存档点五、七个可以立刻上手的配置杠杆说完了理论来点实际的。以下是你今天就能用的 Harness 技巧杠杆做法备注AGENTS.md每次 AI 犯错加一条规则控制在 60 行以内确定性约束Linter、类型检查、结构化测试硬约束比软指令更可靠工具精简只给 AI 最必要的工具多了反而不知道该用哪个Sub-Agent 隔离复杂任务拆分防止中间噪声累积反馈循环AI 自己跑测试、查日志别让什么都靠人工盯CI 限速最多两轮 CI失败就转人工垃圾回收定期扫描技术债尤其代码量大了之后六、行业两大阵营Big Model vs Big HarnessHarness Engineering 也不是没有人唱反调。而且反对者的来头都不小。6.1 Big Model 阵营核心观点模型能力的增长才是主旋律Harness 只是权宜之计。OpenAI 的 Noam Brown 在访谈中直接表态Harness 就像一根拐杖我们终将能够超越它。他的论据在推理模型出现之前开发者搭建了复杂的 Agentic 系统来模拟推理能力。推理模型一出来这些基础设施一夜之间就不需要了。他的建议别花六个月搭建一个可能六个月后就被淘汰的东西。6.2 Big Harness 阵营核心观点模型是引擎Harness 是方向盘和刹车。引擎再强没有方向盘你也到不了目的地。LlamaIndex 创始人 Jerry Liu 的话代表了这一派的立场Model Harness 就是一切。从 AI 那里获取价值的最大障碍是你自己为模型做上下文工程和工作流工程的能力。6.3 护栏悖论我觉得两边都对了一半。护栏悖论车速越快护栏越重要。时速 30 公里的自行车道可以没有护栏时速 120 公里的高速公路护栏是标配时速 300 公里的磁悬浮列车不仅有护栏整个轨道都是封闭的模型就是引擎。引擎越强速度越快你就越需要精心设计的约束系统来确保它跑在正确的方向上。Noam Brown 说得对很多脚手架确实会随着模型进化而被淘汰。但架构约束、反馈循环、熵管理这些东西本质上不会消失只会换一种形态。就像从马车到汽车马鞭消失了但方向盘和刹车不会消失。七、一个更深层的洞察写到这里我忽然意识到一件事。Harness Engineering 说的这些——上下文管理、架构约束、反馈循环、定期清理——这不就是管理吗想想看一个好的技术 leader 是怎么带团队的管理行为Harness 对应给新人写 onboarding 文档AGENTS.md定代码规范和架构原则Linter 和结构测试做 Code Review 确保质量CI/CD 检查定期技术债清理垃圾回收工具选型和精简工具链管理反复出现的问题写进 Wiki反馈循环AI Agent 越强就越像一个能力很强但需要管理的员工。你不会把一个刚入职的天才工程师扔进一个没有文档、没有规范、没有 CI 的项目里然后指望他写出完美的代码。同样的道理你也不该把一个强大的 AI 模型扔进一个没有 Harness 的环境里然后抱怨它不好用。八、未来会怎样几个值得关注的趋势Harness 会成为新的服务模板未来的组织可能会从一组预制的 Harness 模板中选择然后根据自己的需求定制技术栈会收敛当写代码本身不再是瓶颈时团队会更偏向选择那些有好 Harness 可用的技术栈Harness 会反哺模型训练Harness 捕获的 Agent 失败轨迹可以成为模型训练的高质量数据旧代码问题OpenAI 的实验是从空仓库开始的。但对于那些已经有几十万行代码的老项目呢给老代码加 Harness可能就像给一个从不跑测试的项目补测试一样痛苦学科化AIE Europe 已经设立了全球第一个 Harness Engineering 专题赛道。arxiv 上也有了专门的论文九、写在最后有人发了个暴论大模型开发将是最后的程序员下来是 Harness Engineering 开发所有纯码农将在 2028 年前消失。2028 这种预言有点太没依据。但方向大概没错写代码正在变得像打字一样廉价。而在模型之外设计让 Agent 持续、稳定、高质量工作的那套系统正在变成最值钱的技能。未来最稀缺的可能不是训练模型的人。而是管理模型的人。参考资料OpenAI 博文Harness engineering: leveraging Codex in an agent-first worldMitchell Hashimoto 博客My AI Adoption JourneyMartin Fowler 站点分析Harness engineering for coding agent usersLatent Space 分析Is Harness Engineering Real?Stripe Dev BlogMinions: Stripes One-Shot End-to-End Coding Agents

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2517983.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！