2026 年最被高估的技术?不,Harness Engineering 是 AI 工程的下一个十年

news2026/5/14 15:26:33
模型不是瓶颈你搭的壳才是。一、一个让所有 AI 从业者沉默的数据2026 年初研究者 Nate B Jones 发表了一项看似平淡无奇的研究同一个 AI 模型同样的提示词只更换它运行的环境编程基准测试的成功率从 42% 跳到了 78%。模型没换。数据没换。提示词也没换。只是改了模型外面包裹的那层壳性能翻了将近一倍。这层壳现在有了一个正式的名字Harness马具。而围绕它展开的工程实践叫Harness Engineering驾驭工程是 2026 年 AI 工程圈最热门、也最被误解的话题。二、Harness 到底是什么2.1 一个通俗的比喻把 AI 模型比作一匹千里马。Harness 就是驾驭这匹马所需要的一切缰绳、马鞍、路线规划、围栏、训练规则。你要做的不是让这匹马更聪明而是让它跑得更稳、更快、更安全。可能说马相关的东西比较遥远不好理解咱们把大模型理解成发动机古早的Agent就好比是給发动机装上地盘轮子方向盘和刹车让这辆车能跑但是早期汽车跑不远想让汽车正常跑在路上你要为汽车安装好多东西减震系统汽车喇叭车灯转向灯顶棚雨刮等后来又安装了GPS导航自动驾驶传感器这些就属于Harness以后肯定还有更多的功能。具体来说Harness 就是你给 AI 写的项目规则文件AGENTS.md你配置的各种工具终端、文件系统、浏览器你安排的任务拆分和执行顺序你设计的测试和检查流程这些统统都算 Harness。2.2 核心公式整个行业达成了一个共识公式Agent Model Harness模型提供智能Harness 让这个智能能被实际使用。三、为什么是 2026 年3.1 三代进化要理解 Harness 为什么现在火了得先看它是怎么一步步长出来的。阶段时间核心关注比喻Prompt Engineering2022-2024怎么写好单次指令写一封好邮件Context Engineering2025动态构建上下文环境带上相关附件Harness Engineering2026 年 2 月起设计完整控制系统搭建整个办公室三层关系是层层包含的Prompt 是最内层关注怎么给 AI 下指令Context 包裹着 Prompt关注怎么给 AI 提供信息Harness 把它们全部包在里面关注怎么让 AI 持续靠谱地干完一整件事3.2 引爆点两篇博文2026 年 2 月两篇几乎同时发布的技术文章把 Harness 推上了风口浪尖。第一篇来自 OpenAI 的 Codex 团队从一个空的 git 仓库开始5 个月大约 100 万行代码1500 个 PR全部由 Agent 生成人类一行代码都没写。团队一开始只有 3 个工程师后来扩到 7 个。平均每位工程师每天合并 3.5 个 PR。他们估算如果用传统方式手写这个项目的工期应该是现在的10 倍。第二篇来自 Mitchell HashimotoHashiCorp 联合创始人、Terraform 的缔造者他把自己的 AI 采纳之旅分成六个阶段第五个阶段给了一个名字Engineer the Harness每当你发现 Agent 犯了一个错误你就花时间去工程化一个解决方案让它再也不会犯同样的错。他在项目中实践了这个理念AGENTS.md 文件里的每一行规则背后都对应着 Agent 曾经犯过的一个错。四、Harness 的五个核心模块这是本文的重点。理解了这五个模块你就理解了 Harness 的骨架。4.1 上下文架构让 AI 了解项目背景和规矩做项目的第一步是什么了解需求、项目背景和开发规范。用 AI 做项目也一样。常见做法写 AGENTS.md 规则文件告诉 AI 技术栈、代码规范、禁止事项但注意OpenAI 团队踩过一个坑——把几千行规则塞进一个大文件AI 反而更容易忽略关键信息正确做法把 AGENTS.md 当成目录来用只写大约 100 行的摘要和索引然后在docs/目录下放详细的设计文档。AGENTS.md目录约 100 行 ├── 前端规范看 docs/FRONTEND.md ├── 安全相关看 docs/SECURITY.md └── API 文档看 docs/API.mdETH Zurich 的一项研究发现CLAUDE.md / AGENTS.md 文件应该控制在 60 行以内。过长的指令文件反而会降低 Agent 的表现。4.2 执行能力给 AI 装上手脚和工具AI 模型本身只能输出文本。要让它真正帮你干活得给它配工具。工具清单Bash 终端执行命令文件系统读写代码浏览器测试网页Browser UseMCPModel Context Protocol扩展能力如读写数据库、联网搜索Skills 技能包把复杂工作流封装成技能一个反直觉的发现工具越多不一定越好。Vercel 的经验把 Agent 的工具从 15 个砍到只剩 2 个准确率反而从 80% 升到了 100%。Stripe 有大约 500 个 MCP 工具但给每个 Agent 的只是精心筛选过的子集。4.3 任务编排给 AI 安排好工作计划如果你丢给 AI 一个大需求它可能会一把梭全部搞定。但 AI 的上下文空间是有限的开发到一半信息就装不下了前面定好的方案和约束慢慢被冲淡。怎么解决基本做法Plan Mode先让 AI 出方案人工确认后再动手任务拆分大任务拆成小任务每次只做一个功能点增量开发每做完一个功能沉淀文档实现了什么、用了什么方案、还有哪些待办SubAgents 并行多个互不依赖的小任务可以让子代理并行执行4.4 反馈机制让 AI 自己检查自己的工作AI 写完代码之后可能会自信满满地说任务完成了结果你一点运行全是 Bug。所以得让 AI 自己检查跑 Linter查语法和规范问题跑自动化测试验证功能是否正确Browser Use自己打开浏览器实际操作一遍Agent 互审让另一个 AI 来审查代码如果测试没通过AI 可以自动读取报错信息分析原因并尝试修复。4.5 架构护栏防止代码越改越乱AI 生成代码有个特点它会模仿仓库里已有的代码风格哪怕是烂代码。比如同样的页面代码写了好几遍也不知道要拆分成可复用的组件。时间一长技术债就越滚越大。怎么防止架构约束 Linter查的不是代码风格而是架构规则如UI 层不能直接调用数据库层Pre-commit Hooks提交前自动拦截不合规的代码垃圾回收机制定期让 AI 扫描代码库检查有没有偏离架构规范的地方自动提交修复 PRGit 检查点每完成一个功能就提交一次相当于打存档点五、七个可以立刻上手的配置杠杆说完了理论来点实际的。以下是你今天就能用的 Harness 技巧杠杆做法备注AGENTS.md每次 AI 犯错加一条规则控制在 60 行以内确定性约束Linter、类型检查、结构化测试硬约束比软指令更可靠工具精简只给 AI 最必要的工具多了反而不知道该用哪个Sub-Agent 隔离复杂任务拆分防止中间噪声累积反馈循环AI 自己跑测试、查日志别让什么都靠人工盯CI 限速最多两轮 CI失败就转人工垃圾回收定期扫描技术债尤其代码量大了之后六、行业两大阵营Big Model vs Big HarnessHarness Engineering 也不是没有人唱反调。而且反对者的来头都不小。6.1 Big Model 阵营核心观点模型能力的增长才是主旋律Harness 只是权宜之计。OpenAI 的 Noam Brown 在访谈中直接表态Harness 就像一根拐杖我们终将能够超越它。他的论据在推理模型出现之前开发者搭建了复杂的 Agentic 系统来模拟推理能力。推理模型一出来这些基础设施一夜之间就不需要了。他的建议别花六个月搭建一个可能六个月后就被淘汰的东西。6.2 Big Harness 阵营核心观点模型是引擎Harness 是方向盘和刹车。引擎再强没有方向盘你也到不了目的地。LlamaIndex 创始人 Jerry Liu 的话代表了这一派的立场Model Harness 就是一切。从 AI 那里获取价值的最大障碍是你自己为模型做上下文工程和工作流工程的能力。6.3 护栏悖论我觉得两边都对了一半。护栏悖论车速越快护栏越重要。时速 30 公里的自行车道可以没有护栏时速 120 公里的高速公路护栏是标配时速 300 公里的磁悬浮列车不仅有护栏整个轨道都是封闭的模型就是引擎。引擎越强速度越快你就越需要精心设计的约束系统来确保它跑在正确的方向上。Noam Brown 说得对很多脚手架确实会随着模型进化而被淘汰。但架构约束、反馈循环、熵管理这些东西本质上不会消失只会换一种形态。就像从马车到汽车马鞭消失了但方向盘和刹车不会消失。七、一个更深层的洞察写到这里我忽然意识到一件事。Harness Engineering 说的这些——上下文管理、架构约束、反馈循环、定期清理——这不就是管理吗想想看一个好的技术 leader 是怎么带团队的管理行为Harness 对应给新人写 onboarding 文档AGENTS.md定代码规范和架构原则Linter 和结构测试做 Code Review 确保质量CI/CD 检查定期技术债清理垃圾回收工具选型和精简工具链管理反复出现的问题写进 Wiki反馈循环AI Agent 越强就越像一个能力很强但需要管理的员工。你不会把一个刚入职的天才工程师扔进一个没有文档、没有规范、没有 CI 的项目里然后指望他写出完美的代码。同样的道理你也不该把一个强大的 AI 模型扔进一个没有 Harness 的环境里然后抱怨它不好用。八、未来会怎样几个值得关注的趋势Harness 会成为新的服务模板未来的组织可能会从一组预制的 Harness 模板中选择然后根据自己的需求定制技术栈会收敛当写代码本身不再是瓶颈时团队会更偏向选择那些有好 Harness 可用的技术栈Harness 会反哺模型训练Harness 捕获的 Agent 失败轨迹可以成为模型训练的高质量数据旧代码问题OpenAI 的实验是从空仓库开始的。但对于那些已经有几十万行代码的老项目呢给老代码加 Harness可能就像给一个从不跑测试的项目补测试一样痛苦学科化AIE Europe 已经设立了全球第一个 Harness Engineering 专题赛道。arxiv 上也有了专门的论文九、写在最后有人发了个暴论大模型开发将是最后的程序员下来是 Harness Engineering 开发所有纯码农将在 2028 年前消失。2028 这种预言有点太没依据。但方向大概没错写代码正在变得像打字一样廉价。而在模型之外设计让 Agent 持续、稳定、高质量工作的那套系统正在变成最值钱的技能。未来最稀缺的可能不是训练模型的人。而是管理模型的人。参考资料OpenAI 博文Harness engineering: leveraging Codex in an agent-first worldMitchell Hashimoto 博客My AI Adoption JourneyMartin Fowler 站点分析Harness engineering for coding agent usersLatent Space 分析Is Harness Engineering Real?Stripe Dev BlogMinions: Stripes One-Shot End-to-End Coding Agents

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2517983.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…