AI Agent:从定义到分类,带你深入理解智能体的核心奥秘!

news2026/3/29 19:04:06
本文首先明确了AI Agent的定义即结合深度学习技术尤其是大模型技术并能执行任务的下游应用。接着文章列举了AI Agent的实际案例如美团小美、AI Coding工具、SlidevAI和deepwiki并区分了哪些应用不属于AI Agent例如大模型对话网站、传统意图识别模型和推荐系统。文章进一步将AI Agent分为两大类工作流型智能体和自主智能体。工作流型智能体通过预定义代码路径编排LLM和工具适用于有明确SOP的场景而自主智能体则基于LLM动态控制决策和工具使用能自主规划选择更灵活但开发和调优难度大。最后文章建议根据实际需求和技术边界选择合适类型的AI Agent。什么是 AI Agent在讲解这篇文章之前最重要的就是给 AI Agent 的下一个定义。我知道很多非常前线的 agent 开发工程师可能会觉得这段话比较啰嗦但是我仍然想要强调一下任何一个领域的开篇一定需要对这个领域中所提及的关键词进行定义从而对齐读者与笔者的上下文。消解分歧也是笔者的义务之一。我认为 AI Agent 是一个同时满足下面两个条件的程序或者系统部分甚至核心逻辑由深度学习及其衍生技术实现主要指大模型技术。是一个能够进行任务执行的下游应用它的输入和输出都是直接面向终端用户的。AI Agent 的一些例子基于这个定义我们通常情况下认为如下的应用可以称得上是一个 AI Agent美团小美根据用户的需求来帮用户选择符合用户的描述的外卖或者零售商品下图演示了通过小美自动根据历史记录点外卖。AI Coding 工具诸如 CursorClaude CodeCopilotTraeQwen Coder可以帮助程序员更快地将需求转化成业务代码。比如说请帮我优化一下当前的网站页面布局或者根据新的业务需求设计后端的数据库模型或一件生成对应增删改查的代码可以大幅度增加开发效率下面是我日常使用 copilot 进行网站开发的截图SlidevAI这是我开发的一款AI PPT生成工具。可以根据用户输入的文本素材来生成一个能够通过网页链接直接预览的 PPT。https://github.com/LSTM-Kirigaya/slidev-aislidev aideepwiki代码阅读神器。输入GitHub的仓库链接以及你的问题这套系统会帮你自动地解析目标仓库源代码并且输出对应的答案和与这个答案所对应的仓库中的代码片段以此帮助开发者更快的了解他想要了解的源代码部分。比如当你询问 deepwiki 当前这个仓库中是如何实现用户登录以及用户登录的守护中间件是如何编写的那么 deepwiki 就会把守护中间件的实现文件和与之关联的环境变量注册配置文件定义直接帮你展示出来。https://deepwiki.org/ 。下图为「询问 deepwiki 关于某项目中图像存储相关服务的实现细节」什么不是 AI Agent为了更加准确地定义 AI Agent我还想要举出一些我认为并不算这个范围内的应用。大模型对话网站大模型对话网站并不执行任务而只做一对一的文本生成。因此在我的定义中直接的大模型对话比如 deepseekchatgpt这些并不算是 AI Agent。基于传统意图识别模型的 AI 系统在大模型之前就有不少的技术尝试通过简单或复杂的深度学习分类器来路由用户的输入并导出到不同的执行器中。这样的复杂系统由于在大模型之前就已经存在且拓展性极差而且用户的输入必须得遵守严格的语法规定因此我并不认为这种系统是 AI Agent。比如早期版本的微软小冰基于知识图谱的问答系统。传统推荐系统与搜素引擎这类系统往往基于预定义的指标用于在数据库中进行排序和搜索由于并没有大规模的使用深度学习相关的技术且搜索强依赖于基于统计数据的权重方程所以这类系统也不算是 AI Agent。比如 bing百度2023年前的抖音推荐系统。AI Agent 分类长话短说目前的 agent 从实现技术上来说一共分成两大类 「workflow 型」和 「autonomous 型」我们后续简称为「工作流」和「自主智能体」。workflow 型工作流智能体定义工作流智能体指通过预定义代码路径编排 LLM 和工具。在具体解释工作流之前需要先给朋友们普及一个概念叫做 SOP全称 Standard Operating Procedure即标准作业流程。在一套成熟的业务体系中完成某个任务一定会有非常标准的一套流程做完 A 就要做 B然后基于非常明确的标准选择下一步。俗话说的“走流程”指的就是按照 SOP 办事。比如下图所示的就是一个典型的工作流基于著名工作流框架 n8n 低代码构建它演示了通过某个固定的触发器来智能抓取 GitHub 上的热门项目从而提供资讯聚合服务的流程。对于这个项目感兴趣的朋友可以阅读补充材料https://tomo.dev/en/posts/n8n-workflow-for-daily-github-trending-auto-posting/对于这个任务而言它的 SOP 和工作流内容完全同构即“爬取GitHub日活跃数据”-“计算热门项目候选集合” - “基于大模型进行智能总结”-“翻译到目标自然语言”-“在目标通信频道推送消息”。工作流的本质其实就是可视化的 if else而传统的工作流中有一大痛点就是部分环节中“关键任务”无法通过 if else 的方式来解决比如诸如基础翻译跨语言格式转换等等 NLP 任务传统 NLP 技术每一个 NLP 任务都是一个深度学习模型大大增加了工作流中“关键任务”的部署成本而大模型的出现几乎从根本上解决了这一痛点从而为工作流技术在更大范围内的落地部署提供了可能性。正因如此我愿意将目前结合了大模型技术的工作流称为第一类智能体。从本质上来说目前绝大部分的工作流框架其实就是低代码的任务编排框架任务编排框架有很多不同的实现方式通过鼠标点击拖拽的就是「低代码任务编排框架」比如我们上面提到的 n8n 就是目前最为热门的低代码任务编排框架。当然也有通过纯粹写代码实现的编排框架比如 Apache Airflow很多的办公自动化场景中会使用。也有很多根据给定工具进行简单配置就能运行的 workflow最典型的就是 github 提供的 action 功能很多专业的工程项目你往往可以在 github 仓库中看到一个叫做 .github/workflows 的文件夹比如 https://github.com/LSTM-Kirigaya/openmcp-client/blob/main/.github/workflows/build.yaml目前最为流行的工作流框架清一色都是「低代码编排框架」如下图从左到右分别为 dify, n8n 和 coze。除了这些开源的框架外各个大模型厂商也开始推出自己的工作流框架并将其称为“Agent 框架”比如下图所示的 openai 的 AgentKit虽然构建成本大了一点但是作为较为成熟的技术工作流结合大模型所诞生的第一类 Agent 理所当然地成为了目前 Agent 市场上最为主流的技术换句话说目前市面上绝大部分的 Agent 都是基于工作流 大模型的 Agent。autonomous 型自主智能体定义自主智能体指基于 LLM 动态控制决策和工具使用自主规划选择的系统。虽然工作流已经非常 nice 了但是对于很多标准化程度并不高难以抽象出 SOP 的场景而言工作流就难以胜任这部分工作了。最典型的场景就是代码生成你让 AI 根据你的需求生成代码这个过程它其实并没有 SOP。你让 AI 「用 C 语言实现一个根号计算的牛顿迭代法」AI 可以完美生成因为训练大模型的语料库中存在牛顿迭代法的C语言实现代码。你可能会说这个需求太简单了我用工作流一个「询问大模型」节点就能搞定。好那么我们看一个更加复杂的例子。你让 AI 「实现文章自动保存功能的后端接口并在前端中接入这些接口」直接询问大模型是不行的得到的结果是下图虚线都是不存在于问答中的只是用于示意的因为它并不知道后端使用的数据库是什么、数据库模型是否存在可复用的字段、前端的请求函数在何处被定义、后端的中间件和前端的请求拦截器是否存在某些特殊的规则等等等等。这些有关目标任务本身的所有旁人不知道的相关信息被我们称为上下文context。AI 只有获取到上下文才能生成正确的结果而获取上下文的步骤往往和该领域强相关比如前后端开发中请求函数的定义往往在 controller 里面那么“聪明”的 AI 系统就应该先去阅读相关文件并将结果加入自己的“记忆”中来实现上下文的获取从而输出更加精准的代码生成结果。对于自己不知道的东西大模型会用很多看起来很像但是其实不是的信息自动填充这些没有提供的信息这种现象被我们称为「大模型的幻觉」openai 的一项研究表明从数据清洗到大模型训练的环节中至少存在5个步骤是导致幻觉的原因目前业界和学界对于幻觉还没有解决方案目前从根本上解决幻觉问题的希望不大。那么这个时候用工作流就可以这么实现OK假设你的工作流很完美成功获取了正确的上下文并生成了正确的代码。那么假设我第二天要去做深度学习的训练或者做一个基于 rust 的编译器开发了又或者你遇到了一个干脆项目结构和现在完全不一样的前后端项目这套工作流还能适用吗事实上通过之前对于工作流的论述大家应该知道工作流只能适用于存在 SOP 的场景而放眼「开发」这个领域事实上的 SOP 并不存在。因此在代码生成领域通过工作流来构建 agent使用场景相当有限。而我们目前使用的各类 Coding Agent 都是如何实现的呢此处以我最常用的通义灵码为例子你可以观察一下 Agent 模式下它的行为当命令下达后coding agent 会不断使用系统中给定的某些工具调用工具 - 获取结果 - 将结果加入上下文 - 继续询问大模型周而复始这个循环在后面有关函数调用的教程中会讲到叫做「Agent Loop」此处先按下不表。而像 coding agent 这样给定工具集合的情况下自主灵活地通过不断调用工具来完成任务的系统就被我们称为第二类智能体也就是 autonomous 自主智能体。很显然这种任务你用工作流又如何编排呢写代码这个任务你不知道什么时候要去阅读文件获取上下文什么时候要通过网络搜索获取额外信息什么时候又要阅读历史消息进行记忆回滚也就是不存在 SOP不存在 SOP 工作流就不可行。这个故事看起来非常美好“一个可以自主完成工具选择和调用的系统”但是实际的开发和调优上困难重重。更大的自由度意味着更大失控的风险不同于工作流可以在既定的节点上通过规则组等硬编码方式进行校验从而让流程可控自主智能体的每一个环节都存在失败的风险。有一个非常粗糙的数学模型可用于描述这件事假设目前给定的工具AI 能够正确使用并产生正确结果的概率为 90%事实上已经非常高了当前任务需要使用 20 次工具才能解决那么这个任务的最高成功率就是0.920≈0.12 0.9^{20} \approx 0.12\ 0.9^{20} \approx 0.12\也就是只有 12%显然这样的理论结果还不足以让自主智能体推向落地。当然你可以说这个数学模型本身过于粗糙在很多细节上经不起推敲但是我希望用这个论述给我的一些已经热血沸腾的观众朋友浇一盆冷水冷静是工程师的品质之一。而如何避免或者缓解这样的现象出现就是我们后续文章所讨论的内容请各位朋友耐心期待吧总而言之自主智能体在解决问题的能力上限很高比如 Nicolas Bustamante 大佬开发的 AI金融研究平台 fintool 里面的诉讼条款搜索模块已经从复杂策略组的 RAG 全面转向了自主智能体并在实践中得到了证明。下图是新老两种方法的对比图源RAG的落幕从检索时代到Agentic导航时代经验 1.1明智地进行技术选型无论是 workflow 型还是 autonomous 型我们最终的目的都是解决我们的实际问题技术本身并没有好坏之分我们需要根据我们目前手头的数据预算客户需求整体系统的设计边界来决定以哪种类型的 agent 作为我们的技术选型。在此我先简单地从理论角度给出这两者的优劣工作流侧重流程固定和可预测性。如果需要开发的agent他的业务本身有一套 SOP那么这个时候你就需要考虑如果只使用工作流就能满足需求那么就直接使用工作流因为工作流的可预测性会使得开发后期的验证与迭代成本相比于自主型智能体下降很多在后续的教程中大家也会慢慢形成一个基本的概念那就是agent开发中验证的成本是大于开发的。自主智能体侧重灵活性与自我决策。如果当前场景标准程度低根本不存在成熟的SOP那么你大概率只能选择构建自主智能体。在具体实践中你还需要根据目前大模型的能力边界和对场景的熟悉程度来判断是使用自主智能体还是选择质疑当前需求的合理性。拒绝是专业工程师的职业素养之一完善逻辑链的拒绝是专业性的体现之一。在后续的教程中我会给出一个非常详细具体的例子同样使用工作流和自主智能体实现一个可以放在 QQ 群聊里的网页阅读助手。01什么是AI大模型应用开发工程师如果说AI大模型是蕴藏着巨大能量的“后台超级能力”那么AI大模型应用开发工程师就是将这种能量转化为实用工具的执行者。AI大模型应用开发工程师是基于AI大模型设计开发落地业务的应用工程师。这个职业的核心价值在于打破技术与用户之间的壁垒把普通人难以理解的算法逻辑、模型参数转化为人人都能轻松操作的产品形态。无论是日常写作时用到的AI文案生成器、修图软件里的智能美化功能还是办公场景中的自动记账工具、会议记录用的语音转文字APP这些看似简单的应用背后都是应用开发工程师在默默搭建技术与需求之间的桥梁。他们不追求创造全新的大模型而是专注于让已有的大模型“听懂”业务需求“学会”解决具体问题最终形成可落地、可使用的产品。CSDN粉丝独家福利给大家整理了一份AI大模型全套学习资料这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】02AI大模型应用开发工程师的核心职责需求分析与拆解是工作的起点也是确保开发不偏离方向的关键。应用开发工程师需要直接对接业务方深入理解其核心诉求——不仅要明确“要做什么”更要厘清“为什么要做”以及“做到什么程度算合格”。在此基础上他们会将模糊的业务需求拆解为具体的技术任务明确每个环节的执行标准并评估技术实现的可行性同时定义清晰的核心指标为后续开发、测试提供依据。这一步就像建筑前的图纸设计若出现偏差后续所有工作都可能白费。技术选型与适配是衔接需求与开发的核心环节。工程师需要根据业务场景的特点选择合适的基础大模型、开发框架和工具——不同的业务对模型的响应速度、精度、成本要求不同选型的合理性直接影响最终产品的表现。同时他们还要对行业相关数据进行预处理通过提示词工程优化模型输出或在必要时进行轻量化微调让基础模型更好地适配具体业务。此外设计合理的上下文管理规则确保模型理解连贯需求建立敏感信息过滤机制保障数据安全也是这一环节的重要内容。应用开发与对接则是将方案转化为产品的实操阶段。工程师会利用选定的开发框架构建应用的核心功能同时联动各类外部系统——比如将AI模型与企业现有的客户管理系统、数据存储系统打通确保数据流转顺畅。在这一过程中他们还需要配合设计团队打磨前端交互界面让技术功能以简洁易懂的方式呈现给用户实现从技术方案到产品形态的转化。测试与优化是保障产品质量的关键步骤。工程师会开展全面的功能测试找出并修复开发过程中出现的漏洞同时针对模型的响应速度、稳定性等性能指标进行优化。安全合规性也是测试的重点需要确保应用符合数据保护、隐私安全等相关规定。此外他们还会收集用户反馈通过调整模型参数、优化提示词等方式持续提升产品体验让应用更贴合用户实际使用需求。部署运维与迭代则贯穿产品的整个生命周期。工程师会通过云服务器或私有服务器将应用部署上线并实时监控运行状态及时处理突发故障确保应用稳定运行。随着业务需求的变化他们还需要对应用功能进行迭代更新同时编写完善的开发文档和使用手册为后续的维护和交接提供支持。03薪资情况与职业价值市场对这一职业的高度认可直接体现在薪资待遇上。据猎聘最新在招岗位数据显示AI大模型应用开发工程师的月薪最高可达60k。在AI技术加速落地的当下这种“技术业务”的复合型能力尤为稀缺让该职业成为当下极具吸引力的就业选择。AI大模型应用开发工程师是AI技术落地的关键桥梁。他们用专业能力将抽象的技术转化为具体的产品让大模型的价值真正渗透到各行各业。随着AI场景化应用的不断深化这一职业的重要性将更加凸显也必将吸引更多人才投身其中推动AI技术更好地服务于社会发展。CSDN粉丝独家福利给大家整理了一份AI大模型全套学习资料这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2457331.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…