AI开发烂尾病有救了!Anthropic推出Harness多Agent框架

news2026/5/8 3:42:14
Anthropic 把 GAN 的思路搬过来搞了三个 AI Agent组成了一个打工天团分工明确互相配合Planner 导演规划Generator 演员干活Evaluator 影评人挑毛病。你有没有过这种经历兴冲冲地打开 AI想让它帮你写个小工具、做个小应用。一开始 AI 写得飞快界面出来了基础功能也有了你还在感叹 AI 真牛解放生产力。结果写着写着不对劲了AI 开始忘事了之前说好的功能它忘了做 写出来的代码越来越乱之前的 bug 没改完又出新问题 你问它做完了吗它一脸无辜地说“我完成了呀所有功能都实现了”结果你一跑点啥都没反应整个项目直接烂尾。咖啡喝了三杯夜熬到两点最后还是得自己上手擦屁股。谁懂啊原来不是 AI 不行是你没找对方法Anthropic 官方搞出来的这个 Harness 多 Agent 框架直接把 AI 开发的烂尾病给治好了甚至能让 AI 自己花 4 小时搞定一个复杂的全栈应用今天就把这个官方干货给你扒透了看完你也能让 AI 从 “摆烂菜鸡” 变成 “全栈大佬”。谁懂啊用 AI 写代码越写越烂尾我之前踩过一个巨坑让 AI 帮我做个浏览器里的小游戏。一开始 AI 咔咔写半小时就把界面搭好了我还美滋滋地想这下不用自己写代码了。结果过了两小时我发现不对AI 写的按钮点了没反应 之前说好的角色移动功能完全没做 我问它“你是不是漏了功能” 它说“没有呀我都写完了你看代码逻辑没问题的。”我一看代码好家伙它把移动的函数写了但是根本没绑定到按键上它自己看自己的代码觉得完美但是实际跑起来根本用不了。最后这个项目就这么烂尾了。后来我才知道不止我一个人踩这个坑Anthropic 的工程团队做了大量的测试发现只要让 AI 单独做长时间的复杂任务几乎都会烂尾。为什么因为裸 AI 就像一个刚毕业的实习生你直接扔给他一个 “帮我盖个房子” 的需求他一开始干的挺好但是干着干着就忘了之前的设计图重复干活甚至卡住了都不知道。而 Harness就是给这个实习生配了个完整的项目管理团队帮他分工、帮他检查、帮他校准方向让他能踏踏实实把活干完。原来 AI 也会 “失忆” 和 “自嗨”Anthropic 发现AI 做复杂任务的时候有两个绕不开的毛病就像人一样第一个毛病AI 也会 “失忆” 和 “焦虑”你有没有过开会记笔记白板写满了前面的字看不清了然后你就开始着急怕后面的内容写不下赶紧潦草收尾AI 也一样它的上下文窗口就像那个白板对话越长写的东西越多白板就越满。等到快满的时候AI 就会开始 “上下文焦虑”—— 明明任务还没做完它就开始着急收尾质量直接跳水甚至把前面的内容都忘了。之前大家想的办法是压缩把前面的内容缩成摘要但是没用焦虑还是存在白板还是满的。Harness 的办法是什么接力赛跑跑一段就把接力棒交给下一个人前面的人跑完就下场下一个人拿着干净的白板拿着交接文档继续跑。这样每个人都有全新的上下文不会有焦虑也不会忘事。第二个毛病AI 也会 “自嗨”自己夸自己你有没有见过厨师尝自己做的菜怎么吃都觉得好吃盐放多了他都觉得刚好。但是美食评论家一尝就能挑出一堆毛病。AI 也一样你让它自己评估自己写的代码、做的设计它几乎永远会夸自己“我做的太好了完美”哪怕在我们看来这东西一堆 bug设计丑的要死它都觉得没问题。这就是自我评估偏差LLM 天生就喜欢夸自己因为训练的时候它学的就是友好的回应模式。那怎么办很简单别让它自己评自己找个独立的 “美食评论家”专门来挑它的毛病Anthropic 发现调教一个独立的评估器让它变严格比让生成器对自己的工作保持批判性容易太多了把 GAN 的思路搬过来AI 也能组 “打工天团”搞懂了这两个毛病Anthropic 直接把 GAN 的思路搬过来了你知道 GAN 吗就是造假者和鉴定师造假的不断提高技术鉴定的不断提高眼光最后造假的能做出以假乱真的东西。Harness 就是这个思路搞了三个 AI Agent组成了一个打工天团分工明确互相配合Planner导演管规划就像电影里的导演你跟他说 “我要拍个爱情片”他不会直接让演员去演而是会把你的一句话需求变成详细的剧本分镜头甚至把整个拍摄分成好几个阶段每个阶段要拍什么验收标准是什么都写的明明白白。比如你说 “帮我做个游戏制作工具”Planner 直接给你拆成 16 个功能10 个开发阶段甚至连精灵动画、音效、AI 辅助这些你都没想到的功能都给你规划进去了。Generator演员管干活就是那个实际干活的就像演员拿着导演的剧本按要求把内容拍出来写代码、做设计都是它的活。当然它也会犯错也会漏功能没关系后面有人管它。Evaluator影评人挑挑毛病就是那个严格的影评人演员拍完一段他就过来审片按之前说好的标准一条一条检查有没有漏功能有没有 bug设计好不好看发现问题了就写个详细的 bug 报告告诉 Generator“你这里不对这里要改”然后 Generator 就去改改完再给它查直到没问题了再进入下一个阶段。你看这不就是一个完整的团队吗导演管规划演员管干活影评人管质量三个人配合比一个人闷头干强一万倍终于治好了 “AI 味” 设计原来美也能打分之前我最烦的就是 AI 做的设计千篇一律的紫色渐变 白色卡片就是那种 “能看但是毫无灵魂” 的食堂味就像烹饪机器人做的菜能吃但是没有创意。Anthropic 之前也遇到这个问题Claude 默认做得设计永远都是安全、平淡没有个性。那怎么让 AI 做出好看的设计他们搞了个神操作把 “美不美” 这个主观的问题变成了可量化的打分标准他们定了四个评分维度不管是生成设计的 Generator还是评估设计的 Evaluator都按这个标准来设计质量整个设计是不是连贯的色彩排版有没有情感原创性有没有自己的设计重点是紫色渐变 白色卡片不合格工艺排版、间距、色彩是不是和谐功能性用户能不能看懂能不能用你别说这招太管用了Generator 知道自己会被这么打分就不敢再做那种千篇一律的模板了Evaluator 就按这个标准一条一条挑毛病然后反馈给 Generator让它改。迭代了几轮之后AI 居然能做出什么水平的设计有个案例他们让 AI 做荷兰艺术博物馆的网站迭代到第 10 轮的时候AI 直接把整个网站重做了做成了一个 3D 的画廊用 CSS 做了透视画作挂在墙上你能在不同的房间之间导航就像真的逛博物馆一样这种创意之前单次生成根本做不出来就是靠这个反馈循环AI 才敢跳出自己的舒适区做出真正有创意的东西。4 小时搞定全栈应用AI 自己当产品 开发 QA添加图片注释不超过 140 字可选搞定了设计Anthropic 把这个架构直接扩展到了全栈开发结果惊到我了他们做了个测试同一个需求“帮我做个浏览器里的游戏制作工具”分别用单 Agent 和 Harness 来做结果天差地别。单 Agent 版烂尾预定直接让一个 AI 从头到尾干没有规划没有评估结果呢布局乱的要死大量的空白空间操作逻辑混乱用户根本不知道该干嘛游戏完全跑不起来实体点了没反应还一脸无辜地说我做完了呀Harness 版直接出成品用了完整的三个 Agent结果呢界面布局合理用了全部的视口有统一的设计风格看起来就像专业做的功能完整不仅有编辑器还内置了 AI能帮你生成精灵、设计关卡游戏真的能玩能移动实体能交互怎么做到的其实就是把我们人类开发的流程完全复刻到了 AI 身上Planner 先当产品经理把需求拆成 10 个 Sprint每个 Sprint 都有详细的验收标准比如 “矩形填充工具要能拖拽填充”、“删除键要能删掉选中的实体”光一个 Sprint 就有 27 个验收标准然后 Generator 当开发按标准写代码写完一个 Sprint就交给 EvaluatorEvaluator 当 QA用 Playwright 实际打开这个应用点按钮、填表单真的测不是看代码是实际跑发现 bug 了就写个详细的报告精确到哪个文件哪一行比如 “LevelEditor.tsx 的 892 行删除键的判断有问题”然后 Generator 就去改改到过了测试再进下一个 Sprint。你看这不就是我们人类开发的流程吗产品、开发、QA一个都不少只不过现在这三个角色全都是 AI模型变强了框架也要 “减肥”你以为 Harness 就是一成不变的不对Anthropic 说Harness 就像小孩的学步车。小孩刚学走路的时候你要给他学步车、护膝、头盔帮他稳住别摔倒。但是等小孩长大了能自己走了这些辅助工具就没用了你还给他用反而限制他。AI 模型也是一样越来越强原来需要的那些辅助慢慢就不需要了。比如 Claude Opus 4.6 出来之后能力比之前强太多了能自己干更长时间的活不会跑偏能处理更大的代码库。那原来的 Harness那些复杂的 Sprint 分解、每个 Sprint 都要评估是不是就没用了Anthropic 做了个消融实验就像拆炸弹一次拆一个组件看哪个有用哪个没用他们把 Sprint 结构拆了发现没问题Opus 4.6 能自己连续干 2 小时的活不需要拆成小块了他们把 Evaluator 从每个 Sprint 都测改成整个做完了测一次也没问题成本直接降了好多但是 Planner 不能拆没了 PlannerAI 就会直接开始写代码忘了做规划最后做出来的功能少了一大半哦原来如此模型变强了我们的框架就要跟着 “减肥”把没用的辅助拿掉留下真正有用的部分这样既省钱又高效。花 124 刀AI 用 4 小时做了个音乐工作站最后他们用优化后的 Harness做了个终极测试让 AI 做一个浏览器里的 DAW也就是数字音频工作站就是我们用来做音乐的那种软件有音轨、混音、效果器非常复杂。结果是什么整个过程花了 3 小时 50 分钟总成本 124.7 美元。你没看错4 小时不到花了不到一千块人民币AI 就自己把这个复杂的音乐软件做出来了中间的过程也很有意思第一轮 BuildAI 花了 2 小时把主体做出来了但是 Evaluator 一测发现一堆问题音频片段不能拖、没有乐器面板、效果器没有可视化然后 AI 改了 1 小时第二轮 Build又测发现还有问题录音功能是假的、片段不能改大小、效果器还是滑块不是曲线再改 10 分钟第三轮终于搞定了最后做出来的东西居然真的能用有编排视图能拖音频片段有混音器能调音量甚至还内置了 AI你能跟它说 “帮我做个 4/4 拍的流行旋律”它就直接给你生成了你想想要是让人类团队做这个一个产品 一个前端 一个后端 一个 QA4 小时要多少钱远不止 124 块吧这效率直接拉满了最后聊聊其实 Harness 不是什么黑科技它最厉害的地方就是把我们人类社会里最有效的协作模式搬到了 AI 身上。我们都知道一个人干不过一个团队哪怕这个人再厉害。AI 也是一样哪怕模型再强一个 AI 干复杂任务也会有失忆、自嗨的毛病但是把它拆分成分工明确的团队规划的、干活的、挑毛病的互相配合就能搞定远超单个 AI 能力的复杂任务。而且最妙的是这个框架不是死的它会跟着模型一起进化模型变强了我们就把辅助的东西拿掉让 AI 更自主永远用最简单的方式解决问题。 最后问你个问题 你有没有过用 AI 开发项目烂尾的经历是 AI 写着写着失忆了还是它自我感觉良好但实际一堆 bug评论区聊聊你的踩坑经历我们一起看看怎么治 AI 的烂尾病

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2547215.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…