从零构建AI Agent:新手必看!5种核心工作流+实战避坑指南

news2026/4/30 9:59:27
本文从AI Agent的核心运作原理出发详细解析了LLM、工具和记忆的角色并区分了工作流与Agent的适用场景。文章重点介绍了五种核心工作流模式提示词链、路由、并行化、编排者-工作者、评估者-优化者为新手提供了构建Agent的简易公式和五种推荐类型。此外还深入探讨了工具设计、记忆配置、测试优化和多Agent协作的关键要点强调从简单模式入手、注重工具设计和早期测试的重要性帮助读者快速掌握构建高效AI Agent的技巧。FEATURE · AI AGENT 今天我想教你从零构建一个 AI Agent入门教程01 AGENT 如何运作 **理解这些很重要。**如果你不知道原理你就不会知道自己到底需不需要一个 Agent……所以——这是所有 Agent 共享的核心循环用户输入 → LLM 思考 → LLM 决策回应 or 调用工具→ 如果调用工具执行将结果反馈 → 循环 ·LLM是负责推理的大脑 ·工具是执行具体动作的双手计算器、网络搜索、文件读写等 ·记忆是记录已发生内容的记事本 无论你使用 LangGraph、CrewAI、Anthropic SDK 还是 OpenAI Agents SDK这些框架都只是对这个循环进行了封装本质不变。增强型 LLM普通 LLM 接收文本输出文本。增强型 LLM在此基础上增加三种能力工具Tools模型可调用的函数计算器、数据库、API、文件操作等。Anthropic 和 OpenAI 通过 JSON Schema 暴露工具接口Anthropic 使用input_schemaOpenAI 将函数封装在带parameters的function对象中。检索Retrieval从外部数据源搜索引擎、文档、向量数据库拉取相关信息的能力。记忆Memory通过消息历史或其他持久存储在多次交互中保留信息的能力。工作流 vs. 真正的 Agent在选择方案时工作流Workflow和Agent的区别非常重要02 五种核心工作流模式 信不信由你大多数问题根本不需要完全自主的 Agent就能解决。以下五种模式由 Anthropic 归纳并被广泛采用覆盖了绝大多数常见场景。每种模式都依赖增强型 LLM。模式一提示词链Prompt Chaining是什么将任务拆分成顺序执行的步骤。每次 LLM 调用处理上一步的输出。步骤之间可以加入程序化质量门禁来验证结果。何时使用任务可以清晰地分解为固定子任务。用准确性换速度——每次 LLM 调用更简单结果更可靠。 示例场景生成营销文案然后翻译成多语言 / 先写大纲验证关键内容是否覆盖再写完整文档模式二路由Routing是什么对输入进行分类然后路由到对应的专业处理器。每个处理器有自己经过优化的提示词。何时使用不同类别的输入需要完全不同的处理方式。客服工单分流是经典应用场景。模式三并行化Parallelisation是什么同时运行多个 LLM 调用。有两种子模式分块Sectioning将任务拆分为独立子任务并行处理投票Voting对同一任务运行多次聚合结果以提高置信度何时使用子任务相互独立时分块或需要对关键决策达成共识时投票。模式四编排者-工作者Orchestrator-Workers是什么一个中央 LLM编排者动态拆解任务并将子任务分配给工作者 LLM。与并行化不同子任务不是预定义的而是编排者在运行时动态决定的。何时使用无法提前预知任务结构的复杂任务。代码生成跨多个文件、研究任务、报告撰写。模式五评估者-优化者Evaluator-Optimiser是什么一个 LLM 生成输出另一个 LLM 评估并提供反馈。如果评估不通过反馈循环回去重新生成直到满足质量标准。何时使用存在明确的评估标准且迭代优化能带来可衡量的价值。翻译、代码生成、写作任务。03 构建你的 AGENT 这才是你来这篇文章的真正原因……直接开始 怎么把我想要一个能做 XYZ 的 Agent变成现实最简单的思维方式是1. 写下任务 2. 决定它需要哪些工具 3. 告诉模型如何表现 4. 用 5 个真实例子测试 5. 只有失败了才加复杂度最简单的心智模型 构建 Agent 前先回答这四个问题1. 目标是什么Agent 应该产出什么2. 它需要什么信息需要网络搜索、文件、数据库、电子表格、CRM还是只需要用户的消息3. 它可以执行哪些动作只能回答问题可以搜索可以编辑文件可以发送邮件可以写代码可以调用自定义函数4. 它必须遵守哪些规则语气、格式、限制、安全规则、不确定时的处理方式以及好输出的标准。 如果你能清楚地回答这四个问题通常可以在一天内做出第一版 Agent。新手友好的 Agent 设计公式 Agent 角色 目标 工具 规则 输出格式五种新手推荐 Agent 类型 如果你是新手不要从构建多 Agent 集群开始。先从这五种中选一个1. 研究型 Agent用于收集信息并汇总2. 内容型 Agent用于写作、改写、总结、内容转换3. 工作流型 Agent用于执行可重复的业务流程4. 个人知识型 Agent用于基于你的文档回答问题5. 操作型 Agent用于在环境中执行动作Anthropic新手构建第一个 Agent 的最简思路 Anthropic 的 Agent 工具在你希望模型使用工具并在环境中操作时特别有用。Claude Code 于 2025 年 2 月推出Claude Code SDK 后于 2025 年 9 月更名为 Claude Agent SDK。2026 年 3 月 GitHub 的最新发布版本为 v0.1.50。何时选择 Anthropic · 读写和编辑文件 · 使用 Shell 命令 · 搜索网络 · 使用 MCP 工具 · 编程和技术任务 · 需要一步步操作的有能力助手OpenAI新手构建第一个 Agent 的最简思路 OpenAI 于 2025 年 3 月 11 日推出 Agents SDK同时发布了 Responses API 和网络搜索、文件搜索、计算机使用等内置工具。2026 年 3 月Python 包openai-agents版本号为 0.13.1。让 Agent 真正做你想做的事自定义清单1. 让任务更窄❌ 差「帮我处理业务问题」 ✅ 好「把销售通话总结成行动清单」2. 定义输出格式❌ 差「给我一个答案」 ✅ 好「返回摘要、证据、风险、下一步」3. 提供示例告诉模型“这是 3 个好输出的例子” / “用这种风格写作”4. 只在需要时添加工具改写笔记不需要网络搜索 / 答案来自提示词本身时不需要文件访问5. 用真实的混乱提示词测试不要只测试请分类这个技术问题也要测试我的账号坏了一直被扣钱怎么办04 使用工具 大多数人在这里犯错。 他们认为“工具越多 Agent 越聪明”错误。“更好的工具 更聪明的 Agent”“更少的工具 更可靠的 Agent”关于工具最简单的理解方式 工具就是“AI 凭自身能力做不到的事”示例计算数字、搜索网络、读取文件、发送邮件、查询数据库第一步问自己这需要工具吗第二步用 AI 帮你设计工具第三步保持简单❌ 差的工具manage_files(action, file, destination, overwrite, format, permissions)✅ 好的工具read_file(path)write_file(path, content)delete_file(path)规则一个工具 一个明确的任务第四步告诉 Agent 何时使用工具❌ 差「计算器工具」 ✅ 好「任何需要数学运算时使用此工具。绝对不要猜测计算结果。」第五步让 Agent 失败然后修复05 给你的 AGENT 配备记忆 人们总是把这个搞得非常复杂。 只需要理解这一点记忆只有两种类型1. 短期记忆对话就是到目前为止说了什么 你已经默认拥有这个2. 长期记忆外部知识就是Agent 以后可以查找的内容 示例你的笔记、PDF、文档、数据库三个选项选项 A不用记忆从这里开始适合大多数初学者 / 适用于 70% 的使用场景选项 B对话记忆大多数 SDK 已经处理好了 / 不要重置消息历史就行选项 C基于文件的记忆简单 RAG上传文档 / 使用文件搜索工具 ⚠️ 不要过度设计常见错误在你根本不知道是否需要之前就添加向量数据库、嵌入、复杂管道。06 让你的 AGENT 真正好用 这是 Agent 变成垃圾或精品的分水岭大多数变成垃圾原因是烂提示词、没有测试、不切实际的预期。第一步用 AI 生成测试用例第二步像真实用户一样测试❌ 不要测试「请分类这个账单请求」 ✅ 要测试「为什么老是扣我钱啊」第三步每次只修一件事失败时问提示词不清晰输出格式模糊缺少工具缺少规则第四步用 AI 调试你的 Agent第五步不要过早扩张07 多 AGENT 协作 在这里很容易走弯路。 人们认为“更多 Agent 更强大”错误。永远从一个 Agent 开始。只有在以下情况下才添加更多任务明确分割、单个 Agent 力不从心、角色差异非常大。只有三种情况真正需要多 Agent1. 技能不同研究 Agent / 写作 Agent2. 明确的管道流程输入 → 分析 → 写作 → 输出3. 权限不同一个 Agent 只能读数据 / 一个 Agent 才能执行动作 最安全的模式主管模型 - 用户 → 主 Agent → 需要时调用其他 Agent08 总结 这篇文章最重要的洞察是Agent 在概念上简单但在执行上要求很高。核心循环LLM 思考 → 调用工具 → 循环用 50 行 Python 就能实现。真正的功夫在于工具设计、错误处理、评估以及知道什么时候用更简单的模式提示词链、路由比自主 Agent 更好。三个可立即行动的要点1. 先从零开始构建 Agent理解原始循环让每个框架变得透明而非神奇。你会更快调试问题更明智地选择工具。2. 从能解决问题的最简模式开始提示词链处理大多数多步骤任务。路由模式处理大多数分类后行动的工作流。只有当你需要 LLM 动态决定执行路径时才升级为自主 Agent。3. 早期投入工具设计和评估设计良好的工具清晰的名称、精确的描述、结构化的错误信息对 Agent 性能的提升远超换模型或换框架。20 个好的测试用例能发现比任何手动测试更多的 bug。说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2561223.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…