从零到手搓一个Agent:AI Agents新手入门精通

news2026/3/14 9:41:48
这一天你的女朋友问你假设我们有女朋友宝宝什么是Agent啊Agent和LLM有什么区别呀最近大家都在说的Agent究竟是什么包括很多文章都在写的Agent还有之前谷歌发布的Agents白皮书究竟是什么对我们有什么帮助对我们有什么影响呢现在编者专门做了一个系列从最简单的讲起解开这个迷雾这个系列的教程会帮助你了解基本概念并且能够手搓一系列的agent那么chatgpt是Agent还是LLM有了LLM为什么还需要Agent呢这次我们就把概念弄清楚以及有什么用讲清楚一、LLMs的局限与Agents的诞生结合ChatGPT举例你或许已经体验过 ChatGPT 的强大对话能力它能流畅地与你聊天、回答问题甚至帮你写诗、写代码。这背后正是 LLMs大型语言模型在发挥作用。LLMs 就像一个超级博览群书的“大脑”它掌握了海量的文本知识可以根据你的提问生成相应的文本回复那么为什么说 LLMs 仍然存在局限性呢 让我们以 ChatGPT 为例来看1. 知识的滞后性举例 你问 ChatGPT “今天的天气怎么样” 或者 “最新的股票价格是多少”它很可能无法给出准确的回答。因为它所拥有的知识来源于训练时的数据无法实时获取最新的信息。它可能告诉你的是前几天的天气或者很久之前的股票行情。解释 LLMs 的知识就像一本厚厚的“旧书”书里记载着很多知识但无法知道书出版之后发生的新鲜事。2. 无法与外界交互举例 你让 ChatGPT “帮我预订一张明天的机票”它会很热情地告诉你预订机票需要哪些步骤却无法实际帮你预订。你让它 “帮我发送一封邮件给同事”它也只能为你写好邮件内容而不能帮你发送出去。解释 LLMs 只能进行文本理解和生成它就像一个“只会说”的人但没有“手脚”去执行实际操作。3. 缺乏自主行动能力举例 你问 ChatGPT “如何制定一个完美的旅行计划”它会给出你很多建议例如选择目的地、预订酒店、规划行程等等。但是它不会主动帮你把这些都安排好。它只是在回答你的问题而不是主动帮你解决问题。解释 LLMs 只能被动地接收指令然后给出回答无法根据目标自主规划行动。就像一个“听话的助手”但是没有自己的想法和主动性。二、为了突破这些限制Agents智能体应运而生。Agents 的核心思想给 LLMs 配备“手脚”和“大脑”我们可以将 Agents 想象成一个升级版的 ChatGPT它不仅具备强大的语言理解和生成能力还拥有了“手脚”工具 Agents 可以利用各种工具例如搜索引擎、数据库查询工具、邮件发送工具与外界互动获取信息、执行操作。就像给 LLMs 配备了可以操作各种工具的 “手脚”。“大脑”编排层 Agents 具备推理和规划能力可以根据目标自主规划行动并合理地调用各种工具。就像给 LLMs 配备了一个可以自主思考和决策的“大脑”。Agents 与 LLMs 的区别特性LLMs (例如 ChatGPT)Agents (智能体)核心能力语言理解和生成语言理解、推理规划、工具使用、自主行动知识来源训练数据训练数据 实时信息 外部知识库与外界交互无法直接交互可以通过工具与外界交互行动能力无法执行实际操作可以根据目标自主执行操作解决问题方式被动回答问题主动分析问题、规划行动、解决问题例如ChatGPT 可以回答你的问题但无法帮你订机票或查询天气Agent 可以帮你预订机票、查询天气、发送邮件并根据你的需求主动规划行程简而言之LLMs 就像一个知识渊博的“问答机器人”你问什么它答什么。Agents 就像一个“智能助手”它不仅能回答你的问题还能主动帮你完成任务。通过这样的解释希望能够帮助读者更好地理解 LLMs 的局限性以及 Agents 的优势和价值。Agents 的出现标志着人工智能正朝着更智能、更强大的方向发展。知识的局限性 LLMs的知识来源于训练数据无法获取实时的外部信息这使得它在处理需要最新资讯的任务时显得力不从心。行动的局限性 LLMs只能进行文本生成和理解无法与外部环境交互更无法执行实际操作例如查询数据库或发送邮件。为了克服这些局限谷歌的研究人员在《New whitepaper Agents》中详细阐述了“Agent”的概念。他们将LLMs与工具和编排层相结合赋予了LLMs自主行动的能力使其能够像一个真正的“智能体”一样工作。三、Agents的核心组件智能体的“三大支柱”一个完整的Agent通常由三个核心组件构成它们相互协作共同支撑起Agent的智能行为1、 模型 (Model): Agent 的“大脑”角色 负责理解用户输入、进行推理和规划并选择合适的工具执行任务。类型 ReAct、Chain-of-Thought、Tree-of-Thought等模型提供了不同的推理框架帮助Agent进行多轮交互和决策。重要性 模型是Agent的核心其推理能力直接决定了Agent的行动效率和准确性。2、 工具 (Tools): Agent 与外界交互的“桥梁”角色允许Agent访问外部数据和服务执行各种任务。类型 可以是各种API例如数据库查询、搜索引擎、代码执行器、邮件发送器等。重要性工具极大地扩展了Agent的能力使其能够处理更复杂的任务。3、编排层 (Orchestration Layer): Agent 的“指挥中心”角色 负责管理Agent的内部状态协调模型和工具的使用并根据目标指导Agent的行动。类型 可以使用各种推理框架如ReAct和Chain-of-Thought等协助Agent进行规划和决策。重要性 编排层是Agent的“指挥中心”确保各个组件协同工作最终实现预定目标。四、Agents的运作机制从输入到输出Agent 的运作流程可以概括为以下几个步骤接收输入 接收用户的指令或问题。理解输入 模型理解用户的意图并提取关键信息。推理规划 模型根据用户输入和当前状态进行推理和规划确定下一步行动。选择工具 模型根据目标选择合适的工具。执行行动 Agent使用工具执行行动例如查询数据库、发送邮件等。获取结果 Agent获取工具执行的结果。输出结果 Agent将结果输出给用户或进行下一步行动。相较于传统的LLMsAgents 具备以下显著优势知识扩展 通过工具Agent可以访问实时信息和外部知识库突破了训练数据的限制提供更准确和可靠的信息。自主行动 Agent 可以根据目标自主决策和行动无需人工干预大大提高了效率和灵活性。多轮交互 Agent 可以管理对话历史和上下文进行多轮交互提供更自然和流畅的用户体验。可扩展性 Agent 可以通过添加新的工具和模型不断扩展其功能和应用范围。五、Agents的应用从智能客服到虚拟助手Agents 的应用场景非常广泛以下仅列举部分智能客服 自动回答用户问题、处理订单、解决客户问题。个性化推荐 根据用户兴趣和行为推荐商品、内容、服务等。虚拟助手 帮助用户管理日程、预订行程、发送邮件等。代码生成 根据用户需求自动生成代码。智能创作 创作诗歌、小说、剧本等。知识图谱构建 从文本中提取知识构建知识图谱。Agents的开发工具从LangChain到Vertex AI为了方便开发者构建 AgentsGoogle 提供了多种工具和平台LangChain 一个开源库方便开发者将LLMs与工具和编排层结合构建功能强大的Agents。LangGraph 一个开源库帮助开发者构建和可视化 Agents提供图形化界面方便设计和测试。Vertex AI 一个云平台提供各种AI工具和服务如Vertex Agent Builder、Vertex Extensions、Vertex Function Calling等帮助开发者快速构建和部署 Agents。Agents 的未来充满无限可能技术发展将推动 Agents 走向更智能化和强大更先进的模型 更强大的语言模型将带来更复杂的推理和规划能力。更丰富的工具 更多种类的工具将为 Agent 提供更丰富的交互方式例如自然语言处理、图像识别、语音识别和机器人控制等。更智能的编排层 更智能的编排层将更好地协调模型和工具提高 Agent 的效率和灵活性。Agent Chaining 更多专业化的 Agents 将协同工作解决更复杂的问题。多模态交互 Agent 将能够处理多种模态数据如文本、图像和语音带来更丰富的用户体验。人机协作 Agent 将与人类更紧密地合作共同完成更复杂的任务。六、结语AgentAI的未来Agents 代表着生成式AI模型的进阶形态它们拥有自主行动能力能够利用工具与外界交互并根据目标进行决策具有更广泛的应用范围和更强大的能力。随着技术的不断发展Agents 将会改变我们的生活和工作方式并推动人工智能进入新的发展阶段。未来Agent 将成为人工智能发展的重要方向为我们带来更智能、更便捷的未来。这里给大家精心整理了一份全面的AI大模型学习资源包括AI大模型全套学习路线图从入门到实战、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等资料免费分享扫码免费领取全部内容1. 成长路线图学习规划要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。这里我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。2. 大模型经典PDF书籍书籍和学习文档资料是学习大模型过程中必不可少的我们精选了一系列深入探讨大模型技术的书籍和学习文档它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。书籍含电子版PDF3. 大模型视频教程对于很多自学或者没有基础的同学来说书籍这些纯文字类的学习教材会觉得比较晦涩难以理解因此我们提供了丰富的大模型视频教程以动态、形象的方式展示技术概念帮助你更快、更轻松地掌握核心知识。4. 2026行业报告行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5. 大模型项目实战学以致用当你的理论知识积累到一定程度就需要通过项目实战在实际操作中检验和巩固你所学到的知识同时为你找工作和职业发展打下坚实的基础。6. 大模型面试题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我们将提供精心整理的大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。7. 资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2410688.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…