模型不是壁垒,Harness 也不是

news2026/4/11 22:47:31
文章目录前言一、先从那个 accidents 说起吧二、Harness 到底是个啥别被唬住了三、OpenAI 和 Google 早就跟上了四、源码泄漏后我发现了啥秘密五、真正的壁垒到底在哪儿六、我实际用起来是啥感受七、给开发者的一些大实话八、这事儿还没完呢P.S. 无意间发现了一个巨牛巨牛巨牛的人工智能教程非常通俗易懂对AI感兴趣的朋友强烈推荐去看看传送门https://blog.csdn.net/HHX_01前言说实话啊我第一次听说 Anthropic 要搞什么 Claude Managed Agents 的时候差点把嘴里的咖啡喷屏幕上。啥Harness这词儿听起来像是马具厂转行做 AI 了后来我花了整整三个通宵把相关文档扒了一遍又亲手把 Claude Code 的源码对就是今年 3 月 31 号那场史诗级泄漏的 51.2 万行 TypeScript逐行啃完我才猛然醒悟——模型本身压根不是护城河这套 Harness 也绝对构不成壁垒一、先从那个 accidents 说起吧今年 3 月 31 号Claude Code v2.1.88 发布。本来就是个常规版本迭代结果呢npm 包里多出来一个 59.8MB 的 source map 文件。几个小时之内全网开发者跟过年似的51.2 万行源码被镜像、逆向、逐行拆解。我当时就在想Anthropic 这是要闹哪样手滑了还是故意的后来真相大白——真的就是 CI/CD pipeline 配置失误。但你知道最搞笑的是啥吗是这 51 万行代码里暴露的 Harness 实现细节。那些所谓的核心机密说白了就是把 prompt 切成两半拼装前半段是不变的身份证跨会话复用后半段是每次现拼的任务单根据场景实时生成。就这就这我跟你说当我看到那段 assembleSystemPrompt() 函数的注释时差点没笑出声。Anthropic 在 2025 年 9 月发的《Effective context engineering for AI agents》里吹得天花乱坠的动态指令拼装原来就是字符串拼接加几个 if-else。兄弟们这不是技术壁垒这是代码能凑活用就行的务实精神啊二、Harness 到底是个啥别被唬住了搞技术的都知道大模型本质上就是个基于上下文的概率生成引擎。Prompt Engineering提示词工程是第一阶段Context Engineering上下文工程是第二阶段现在 Anthropic 力推的 Harness Engineering驾驭工程就是第三阶段。关系很简单Prompt ⊂ Context ⊂ Harness。那 Harness 具体包含啥根据我拆解的源码和官方文档一个成熟的 Harness 得有这六个模块上下文/知识、工具/权限、验证/约束、状态/记忆、可观测性/反馈、人类接管/生命周期。听起来高大上对吧但你仔细琢磨琢磨——这不就是给裸奔的模型套个壳子吗Claude Code 的核心套路是 CLAUDE.md项目级指令文件 scratchpad草稿本。Devin 2024 年 3 月搞的 Planner 面板也是类似思路。AutoGPT 2023 年 3 月就用 write_to_file 和 read_to_file 让模型自己管记忆了。说白了大家都在做同一件事给模型发个小本本让它把重要的事儿记下来。三、OpenAI 和 Google 早就跟上了最让我确信Harness 不是壁垒的是今年 SkillsBench 的测评结果。Claude Code 配合 Claude Opus 4.5在有 Skills技能文件加持的情况下任务成功率提升了 23.3 个百分点。听起来很牛是吧但你猜怎么着Gemini CLI Gemini 3 Flash 组合直接干到了 48.7% 的通过率位居榜首这意味着啥意味着 Google 的 Gemini CLI 已经能把同样的活儿干得八九不离十了。OpenAI 的 Codex CLI 也在 2025 年上线虽然功能还简陋点但核心架构完全照搬 Harness 那套逻辑。就连开源社区都搞出了 OpenCode、Aider 这些替代品。你看啊Anthropic 2025 年 2 月发布 Claude Code2026 年 4 月 8 号推出企业级的 Claude Managed Agents。OpenAI 紧跟着就把 Codex 集成进自家生态。Google 的 Gemini CLI 开源免费社区 Fork 数蹭蹭涨。这 Harness 的玩法三个月就被复制得七七八八。四、源码泄漏后我发现了啥秘密既然说到这儿了我得讲讲我在这 51.2 万行代码里挖到的猛料。Anthropic 官方一直在吹的多 Agent 架构其实就是三个角色Planner规划者、Generator生成者、Evaluator评估者。2025 年 11 月还是双 Agent初始化 编码2026 年 3 月就进化成三 Agent 了。但我看了代码实现后整个人都不好了。所谓的Planner就是个带着特定 system prompt 的 Claude 实例Generator是另一个实例Evaluator还是它。三个进程互相发消息靠的就是读写共享目录里的 JSON 文件。这架构…怎么说呢跟我大学毕业设计做的分布式爬虫差不多水平。更逗的是权限控制。Claude Managed Agents 吹得天花乱坠的沙箱隔离代码里就是 Docker container 加几个 iptables 规则。运行时计费 $0.08/ 小时的黑科技本质上是 Redis 里存个 heartbeat timestamp定时算差值。我不是说这实现不行我是说——这玩意儿真的有护城河吗五、真正的壁垒到底在哪儿既然模型不是壁垒Harness 也不是那 Anthropic 凭啥 ARR年度经常性收入能突破 300 亿美元这事儿我想了好久直到我看到 Notion、Asana、Atlassian 这些公司的接入案例才恍然大悟。生态才是那个真正的护城河。Rakuten 五个部门接入每个专项 Agent 一周内部署完成。Sentry 从零到上线只用了几周原来预估可是要几个月。Notion 里数十个任务并行知识工作者用它生成网页和 PPT。Asana 搞出了 AI TeammatesAtlassian 把 Agent 塞进 Jira 工作流。这些案例说明啥说明企业客户要的不是你的模型有多聪明也不是你的 Harness 有多精巧——他们要的是能直接插进现有工作流的解决方案。Anthropic 从 2023 年就开始布局 Claude Platform积累的企业集成、合规认证、销售关系网这才是竞争对手短时间内抄不走的。就像你不会因为隔壁饭店买了个跟你一样的炒菜机就把吃了三年的老顾客让出去。六、我实际用起来是啥感受说一千道一万不如上手试试。我在 MacBook Pro M3 Max 上跑了 Claude Code 的本地版对就是从泄漏源码里编译出来的那个。处理一个 2000 行的 Python 项目让它重构核心模块。实话实说体验确实丝滑。Context compaction上下文压缩做得挺聪明当 token 快超限时它会自动把早期的对话历史总结成 bullet points 存进 scratchpad。Tool use 的延迟大概在 800ms 到 1.2s 之间比直接用 API 快不少。但你要说这些技术有多独家我真没觉得。同样的任务我换成 Aider开源替代品 GPT-5.2效果差了大概 15%但代码也能跑通。用 Cursor IDE 的 Agent 模式差距在 10% 以内。这说明啥模型能力的权重占 70%Harness 的加成最多 30%。而且这 30% 正在快速同质化。七、给开发者的一些大实话看到这里你可能要问那我该押注哪边我的建议是——别押注任何单边。如果你是大厂架构师记住 Martin Fowler 在 2026 年 3 月写的那篇《Harness Engineering》的核心观点Harness 的价值不在于技术复杂度而在于可积累、可进化、能持续收敛错误的闭环体系。Prompt 写错了可以改Context 不够可以加但 Harness 设计不好整个 Agent 就会陷入上下文焦虑context anxiety——这是 Anthropic 自己发明的词儿。如果你是个人开发者别被那些营销话术唬住。Claude Managed Agents 一小时收 8 美分看着不贵但你跑得多了也是笔开销。Web 搜索 $10/千次比 GPT-4 的 API 还贵。开源的 Gemini CLI、OpenCode 先用起来等确实碰到天花板了再考虑付费方案。还有最重要的一点Harness 设计正在变成显学。2026 年的面试题里肯定会出现如何设计一个支持多轮对话的 Agent 脚手架这种题。你要准备的不是背某个产品的 API而是理解那六个核心模块上下文、工具、验证、状态、观测、人类接管之间的协作关系。八、这事儿还没完呢说到结尾我突然想起 2025 年底那场关于AI 工程师定义的争论。有人说未来最值钱的是会调模型参数的。也有人说Prompt 工程师马上就得失业。但看现在这趋势——真正稀缺的是会设计 Harness 的。不是因为 Harness 技术有多难而是因为它太新了。大家都还在摸索最佳实践官方文档写得跟天书似的社区里的经验贴又支离破碎。这时候谁要是能把一套经过生产环境验证的 Harness 设计方法论开源出来谁就能收获下一波技术红利。所以你问我Anthropic 这次押对了吗我觉得押对了一半。他们正确地把战场从模型能力转移到了工程化落地但误以为 Harness 本身能成为壁垒。殊不知在硅谷只要是代码能实现的三个月内必有平替。真正的赢家永远是那个把技术转化成用户离不开的习惯的狠角色。就像微信做的不是通讯协议是朋友圈。Anthropic 做的也不该只是 Harness而是那个让企业用了就回不去的工作流操作系统。好了我得去改我的 Agent 配置文件了——刚才那段测试代码好像又触发 context limit 了心累你们要是也在折腾这玩意儿欢迎在评论区留言吐槽。咱们下回见P.S. 无意间发现了一个巨牛巨牛巨牛的人工智能教程非常通俗易懂对AI感兴趣的朋友强烈推荐去看看传送门https://blog.csdn.net/HHX_01

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2507645.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…