LLM到Harness Engineering,我花一天时间捋清了这条技术链,终于搞懂了!
本文深入浅出地梳理了AI领域中的核心概念从基础的大语言模型LLM、Token、Context、Prompt到工具Tool、模型上下文协议MCP再到智能体Agent、技能Skill和 Harness Engineering。文章通过生动的比喻和实例阐述了这些概念之间的关系和作用揭示了AI技术如何从简单的文字处理进化到自主执行任务并强调了Harness Engineering在确保AI可靠性和安全性方面的重要性。整篇文章旨在帮助读者系统性地理解AI技术栈为初学者和从业者提供了宝贵的知识框架。新名词一串接一串我花了一天时间搜集学习帮大家把这些概念从底到顶理一遍。LLM、Token、Context、Prompt、Tool、MCP、Agent、Skill、Harness Engineering。这些词最近是不是经常在你的朋友圈、技术群、各种AI自媒体文章里冒出来说实话我观察了一段时间发现一个问题。很多AI自媒体包括我自己以前在聊这些词的时候要么一笔带过要么吹得神乎其神很少有人真正把这些概念之间的关系讲清楚。搞得大家看了一堆文章还是晕晕乎乎的——每个词好像都见过但你问它到底啥意思、跟其它概念是什么关系说不上来。所以今天我专门花了一天时间把相关的论文、文档、技术博客、视频都翻了一遍做了一次系统的学习和梳理。然后想跟大家分享一下我的理解。先说一个好消息这些概念其实没那么复杂。它是一层一层往上搭的像搭积木一样。你搞清楚了底下那块是什么上面那块自然就理解了。我们从最底层开始一块一块往上垒。第一层LLM——一个玩文字接龙的超级大脑一切的起点是LLM。LLM全称Large Language Model大语言模型简称大模型。Claude、GPT、Gemini、千问、GLM都属于这一类。基本上现在所有的大模型都是基于Transformer架构训练出来的这个架构最早是Google在2017年提出的。虽然火种是谷歌发明的但真正点燃全世界的却是OpenAI——2022年底ChatGPT横空出世算是第一个真正达到可用级别的大模型产品。大模型到底是怎么工作的它的核心原理说出来你可能觉得太朴素了——就是一个文字接龙游戏。训练的时候人们拿海量文本喂给它让它学一个技能“看到前面这些字后面最可能接什么字“看到今天天气真”它学会接好”。看到for i in range它学会接(10):“。这个接龙游戏玩了几万亿遍之后它就变成了一个你说一句、它能顺着写出一整段内容的语言引擎”。这里有个细节模型每次只吐出一个词。吐完之后把这个词塞回输入再预测下一个。一个接一个直到它觉得该说的都说完了才输出一个结束标记。这就是为什么大模型输出答案是一个字一个字往外蹦的——因为它底层就是这么运作的。但这个超级话痨大脑有一个天然缺陷——幻觉Hallucination。说白了就是一本正经地瞎编。因为LLM的目标从来不是说真话而是说看起来最像人话的话。当它不知道某个事实时它不会说我不知道而是根据语言模式编一个像真的答案出来。后面我们讲到的所有东西——工具、Agent、MCP、Harness Engineering——很大程度上就是在帮这个话痨大脑少说错话、多干正事。第二层Token——AI眼里的语言像素大模型在玩文字接龙但它接的龙并不是按我们人类的字或词来切的。模型看一句话会先把它切成更小的片段。这些片段就叫Token。Token和词不是一回事。有时候一个Token正好是一个词有时候一个词会被拆成两三个Token。比如人工智能工程师你觉得是两个词对吧但在模型眼里它会被切成人工“智能”“工程”师四个Token。英文也一样“helpful会被拆成help和ful”。你可以把Token理解成模型自己学会的一套文本切分规则。粗略换算1个Token大约等于0.75个英文单词或者1.5到2个汉字。Token为什么要单独拿出来讲因为你在AI产品里看到的几乎所有限制和价格都是用Token衡量的。顺着Token往下说就有两个关联概念。第一个是Context上下文。你跟大模型聊天它好像能记住之前说的话。但它本质上就是个数学函数并没有真正的记忆。它怎么记住的答案是——每次你发消息时背后的程序会自动把之前的对话历史跟你的新问题打包在一起发给模型。模型每次看到的都是完整对话记录所以它才知道之前发生过什么。这个打包在一起的所有信息就叫Context你可以理解为大模型的临时记忆体。第二个是Context Window上下文窗口——这个记忆体能装多大。现在主流大模型的Context Window都到了百万级GPT-5.4是105万TokenClaude Opus 4.6是100万Token。100万Token大概能装下整套哈利波特。Token是计量单位Context是装东西的容器Context Window是容器的上限。三个概念一条线。第三层Prompt——怎么跟大脑说话有了大模型你得跟它交流。你给它的指令或问题就叫Prompt提示词。“帮我写一首诗是一个Prompt。但这个Prompt太模糊了模型可能给你写古诗、现代诗、打油诗什么都有可能。你换成请写一首五言绝句主题秋天落叶风格悲凉”输出质量立刻不一样。Prompt怎么写决定输出质量。曾经有个专门的领域叫Prompt Engineering提示词工程不过说实话现在提的人越来越少了——一方面门槛不高本质就是把话说清楚另一方面模型越来越聪明你说得含糊它也能猜个八九不离十。这里要知道的一个区分是Prompt分两种。User Prompt是你在对话框里打的问题。System Prompt是开发者在后台配的人设和规则用户看不到但它一直在影响模型行为。比如后台写了你是耐心的数学老师不直接给答案要引导思考当学生问3加5等于几模型就不会直接说8而是引导式回答。第四层Tool——让大脑摸到外部世界到目前为止大模型还只是一个文字接龙引擎。你问它今天上海天气怎么样它会说抱歉无法获取实时天气。因为它真的没办法去查天气网站它全部的能力就是根据训练数据预测下一个词。怎么办给它接上工具。Tool工具本质上就是一个函数。输入城市和日期输出天气信息。它内部可能调了气象局接口但这些细节模型不用管。完整流程是这样用户提问→平台转发给大模型同时告诉它有哪些工具可用→大模型分析后决定调用某个工具输出一段调用指令→平台收到指令真的去执行工具→拿到结果返回给大模型→大模型整理成人话回复用户。这里有个很多人搞混的关键点大模型自己不能直接调用工具。它唯一的能力就是输出文本。想调工具时它只能输出一段调用指令告诉平台帮它调。真正执行的是平台不是模型。Tool 让大模型感知和影响外部世界的函数。从这里开始大模型不仅能说还能动了。第五层MCP——给工具统一一个Type-C接口工具搞明白了。但工程上马上出现一个问题。你开发了一个天气查询工具想让AI能调用它。接到ChatGPT上得按OpenAI规范写一套代码。接到Claude上得按Anthropic规范再写一套。接到Gemini上还得按Google规范再来一套。同一个工具写三遍。这就跟以前手机充电线一样——安卓一种、苹果一种、老诺基亚又一种出门带三根线。后来怎么解决的统一成Type-C了。MCP干的就是这件事。MCP全称Model Context Protocol模型上下文协议。名字有点学术你就记住一件事它是AI工具界的Type-C接口标准。有了MCP工具开发者只需要按这个规范写一次代码就能被所有支持MCP的平台使用。MCP是AnthropicClaude的公司最先推出的开放协议定义了客户端怎么发现、连接、调用MCP服务器的统一规范。MCP服务器可以包裹任何东西——代码仓库、数据库、搜索引擎、内部API都行。现在主流AI平台基本都在跟进支持MCP了。Tool解决的是大模型能不能做这件事。MCP解决的是做这件事的工具怎么只写一次就到处能用。第六层Agent——从会聊天到会自己干活有了大模型、工具和MCP听着已经很强了。但你想想这个场景“今天这里天气怎么样如果下雨帮我查附近有没有卖伞的店。”这不是一次工具调用能搞定的。模型得先调定位工具知道你在哪再调天气工具查天气发现下雨了还得调店铺搜索找卖伞的。三个工具分步调用中间有判断逻辑。这就进入了Agent智能体的领域。LLM是有脑子但不会主动的专家——你问一句它答一句。Agent是有脑子、会自我驱动、还会用工具的虚拟员工——你给它一个任务它自己想办法干完。Agent的工作循环看输入→想下一步该干嘛→选要不要用工具→看工具结果→再想下一步。一直循环直到任务完成。目前大家比较熟悉的Agent产品有Claude Code、Codex还有开源的OpenClaw龙虾。特别是OpenClaw最近在国内社区很火。它是一个本地优先的AI智能体框架可以跑在你自己的电脑或服务器上通过工具链和长上下文记忆来驱动AI帮你干活——处理文件、操作浏览器、执行脚本、跑自动化任务。它不是聊天工具更像一个数字实习生。我之前也专门写过龙虾相关的文章感兴趣的可以翻一下。不管是Claude Code还是OpenClaw底层逻辑都一样LLM做大脑工具做手脚加上一个能循环执行的工作流框架就构成了一个Agent。第七层Skill——给Agent一份做事说明书Agent能自己干活了但用多了会发现一个问题。比如你想让Agent每天出门前看天气、提醒你带东西。你有自己的习惯下雨带伞、光照强戴帽子、空气差戴口罩。你还要求输出格式是先一句总结、再列物品清单。不做额外设定的话你只说我要出门了带什么Agent大概率给你一堆泛泛的废话因为它不知道你的规则。要拿到满意的结果你每次提问都得带一大串说明。每天出门都复制粘贴一长串谁受得了Skill就是解决这个问题的。Skill技能说白了就是提前写好的一份给Agent看的说明文档。规则、步骤、格式要求、示例全写在里面存到指定位置。以后Agent遇到相关问题就自动去读这份文档按里面的要求做事。你不用每次重复说一遍了。拿Claude Code或OpenClaw举例一个Skill就是一个Markdown文件。上面是元数据层——技能叫什么、负责做什么下面是指令层——做事步骤、判断规则、输出格式。Agent启动时会加载元数据发现用户问题跟某个Skill相关时才去读完整的指令内容。Skill和Tool的区别Tool是一把菜刀一个具体的功能点Skill是一整套做粤菜的菜谱顺序火候经验一套完整的做事流程。Tool回答能不能做Skill回答怎么做好。第八层Harness Engineering——给AI装上安全网到这儿我们有了大脑LLM、手脚Tool/MCP、做事套路Skill、会循环干活的虚拟员工Agent。听着很完美对吧但真正把Agent上到生产环境里跑的团队很快就发现了一个更大的坑Agent不是偶尔出错而是系统性地不靠谱。跑几百步就迷路长任务中途状态丢失幻觉和错误被自动放大——如果不加控制它能自信满满地帮你删掉生产数据库。这就是2026年初最新冒出来的概念Harness Engineering。Harness这个词来自马具——缰绳、马鞍、嚼铁一整套用来控制一匹强壮但不可预测的马的装备。这个比喻很到位模型就是那匹马跑得快、力气大但它不知道该往哪跑。Harness就是让它朝正确方向跑的那一整套装备。这个概念今年年初被OpenAI正式提出来。他们的Codex团队做了一个实验完全不手写代码让AI Agent自主构建了一个超过100万行代码的产品。但工程师的工作不是写代码而是设计让AI能可靠写代码的那一整套Harness——约束、反馈循环、文档规范、验证系统。Martin Fowler、Anthropic等也都在跟进讨论这个概念。Harness Engineering具体干什么我研究下来可以概括成四件事第一硬约束。限制Agent能访问哪些API、能改哪些目录、哪些操作必须只读或需要人工确认。用沙箱、权限白名单从根上掐掉能出事的事。第二状态追踪。把Agent每一步的思考、调用、结果都详细记录出了问题可以回放和调试。长任务要有检查点防止中途崩了全军覆没。第三自动验证。给Agent的输出加上规则校验、单元测试、静态分析。出现异常就自动回滚、重试或降级。第四人类在环。关键节点必须人工确认——大额操作、删除数据、对外发布内容这些事不能让Agent一个人拍板。Harness Engineering的核心理念不要指望模型天生靠谱要通过一套制度和系统把不靠谱的部分包起来。用一个比方来总结如果说Agent是一个能力很强但经验不足的新员工那Harness Engineering就是这家公司的规章制度、风控体系和质量验收流程。员工再聪明没有制度兜底公司也会出事。把整条线串一遍现在从底往上看一遍整条线就清楚了。最底层是LLMTokenContext。大模型是文字接龙引擎Token是它处理文本的最小单位Context是它的临时记忆体Context Window决定了这个记忆能装多少。往上是Prompt。你给模型的指令就是Prompt分User Prompt和System Prompt。怎么说话决定了模型的输出质量。再往上是Tool。让大模型能调用外部函数从只会说变成能动手。Tool之上是MCP。解决工具只写一次就到处能用的标准化问题AI世界的Type-C。有了脑子和手脚装进一个能循环干活的框架里就成了Agent——会自主规划、自主行动的虚拟员工。OpenClaw、Claude Code、Codex底层都是这个逻辑。给Agent配上Skill它就不只会干活还知道按你的标准干活。最上面是Harness Engineering。它不让Agent更聪明而是让Agent更靠谱——通过约束、验证、监控和人类在环把智能体从炫技项目变成可以托付的生产基础设施。这就是从大模型到智能体再到Harness Engineering这一整条技术线。每一层都在解决上一层留下的问题一块一块搭上去。回头看这些概念并不复杂。只是之前大家习惯了零散地去接触它们没人把它们排成一条线来看。今天排完这条线以后再碰到AI圈子里的新词你大概就能判断它在这个积木塔的哪一层了。最近两年大模型发展很迅速在理论研究方面得到很大的拓展基础模型的能力也取得重大突破大模型现在正在积极探索落地的方向如果与各行各业结合起来是未来落地的一个重大研究方向大模型应用工程师年包50w属于中等水平如果想要入门大模型那现在正是最佳时机2025年Agent的元年2026年将会百花齐放相应的应用将覆盖文本视频语音图像等全模态如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享扫描下方csdn官方合作二维码获取哦给大家推荐一个大模型应用学习路线这个学习路线的具体内容如下第一节提示词工程提示词是用于与AI模型沟通交流的这一部分主要介绍基本概念和相应的实践高级的提示词工程来实现模型最佳效果以现实案例为基础进行案例讲解在企业中除了微调之外最喜欢的就是用提示词工程技术来实现模型性能的提升第二节检索增强生成RAG可能大家经常会看见RAG这个名词这个就是将向量数据库与大模型结合的技术通过外部知识来增强改进提升大模型的回答结果这一部分主要介绍RAG架构与组件从零开始搭建RAG系统生成部署RAG性能优化等第三节微调预训练之后的模型想要在具体任务上进行适配那就需要通过微调来提升模型的性能能满足定制化的需求这一部分主要介绍微调的基础模型适配技术最佳实践的案例以及资源优化等内容第四节模型部署想要把预训练或者微调之后的模型应用于生产实践那就需要部署模型部署分为云端部署和本地部署部署的过程中需要考虑硬件支持服务器性能以及对性能进行优化使用过程中的监控维护等第五节人工智能系统和项目这一部分主要介绍自主人工智能系统包括代理框架决策框架多智能体系统以及实际应用然后通过实践项目应用前面学习到的知识包括端到端的实现行业相关情景等学完上面的大模型应用技术就可以去做一些开源的项目大模型领域现在非常注重项目的落地后续可以学习一些Agent框架等内容上面的资料做了一些整理有需要的同学可以下方添加二维码获取仅供学习使用
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2480037.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!