LLM-Based Agent综述及其框架学习(五)

news2025/5/20 2:11:47

文章目录

  • 摘要
  • Abstract
  • 1. 引言
  • 2. 文本输出
  • 3. 工具的使用
    • 3.1 理解工具
    • 3.2 学会使用工具
    • 3.3 制作自给自足的工具
    • 3.4 工具可以扩展LLM-Based Agent的行动空间
    • 3.5 总结
  • 4. 具身动作
  • 5. 学习智能体框架
    • 5.1 CrewAI学习进度
    • 5.2 LangGraph学习进度
    • 5.3 MCP学习进度
  • 参考
  • 总结

摘要

  本文围绕基于大语言模型(LLM)的智能体(Agent)展开探讨,重点分析了其动作模块的构建与功能实现。智能体通过模拟人类认知过程,整合感知信息并进行推理决策,最终执行与环境交互的动作。LLM赋予智能体强大的文本生成能力,使其成为高效的语言生成器。然而,智能体在专业知识、决策透明度和抗干扰能力等方面存在局限,而工具的使用能有效弥补这些不足。通过理解工具功能、学习使用工具甚至自主创建工具,智能体能够扩展行动空间,提升任务完成的质量和效率。工具不仅帮助智能体获取外部资源,还能实现多模态输出,从而拓展应用场景。特别值得关注的是"数字具身"智能体的发展,这类智能体能够通过工具或多模态方式与物理环境动态交互,实现从纯文本输出到具身行为的跨越。具身智能体通过与环境的持续互动获得智能,其行为模式更接近人类,能够主动感知、理解并修改环境。这一范式被视为实现通用人工智能(AGI)的关键路径,其核心在于将模型智能与物理世界紧密结合。未来,随着工具使用能力的提升和具身行为的完善,LLM-Based Agent有望在更广泛领域展现类人的适应性和创造性。

Abstract

  This article focuses on Large Language Model (LLM)-based agents, with a particular emphasis on the construction and functional implementation of their action modules. These agents simulate human cognitive processes by integrating perceptual information, performing reasoning and decision-making, and ultimately executing actions to interact with their environment. LLMs endow agents with powerful text generation capabilities, making them efficient language generators. However, agents still face limitations in areas such as domain-specific knowledge, decision transparency, and robustness against interference. The use of tools can effectively mitigate these shortcomings. By understanding tool functionalities, learning to use tools, and even creating tools autonomously, agents can expand their action space and improve task performance in terms of both quality and efficiency. Tools not only help agents access external resources but also enable multimodal outputs, thereby broadening their application scenarios. Particularly noteworthy is the development of “digitally embodied” agents—agents capable of dynamically interacting with the physical environment through tools or multimodal means, bridging the gap between pure text output and embodied behavior. These embodied agents acquire intelligence through continuous interaction with their environment, exhibiting behavior patterns more akin to those of humans. They can actively perceive, understand, and modify their surroundings. This paradigm is considered a key pathway toward achieving Artificial General Intelligence (AGI), with its core lying in the deep integration of model intelligence and the physical world. In the future, as tool-use capabilities advance and embodied behaviors become more sophisticated, LLM-based agents are expected to demonstrate human-like adaptability and creativity across a wider range of domains.

1. 引言

  人类感知环境后,大脑会对感知到的信息进行整合、分析、推理,并做出决策。随后,他们利用自己的神经系统来控制自己的身体,根据环境做出适应性或创造性的行动,比如进行对话、躲避障碍物或生火。当一个智能体拥有类似大脑的结构,具有知识、记忆、推理、规划和泛化能力,以及多模态感知能力时,它也有望拥有类似于人类的各种各样的行动,以应对周围的环境。在智能体的构建中,动作模块接收大脑模块发送的动作序列,并执行与环境交互的动作。下面将介绍关于LLM-Based Agent概念框架中关于动作模块的内容。

2. 文本输出

  基于transformer的生成式大型语言模型的兴起和发展赋予了LLM-Based Agent固有的语言生成能力。它们生成的文本质量在流畅性、相关性、多样性、可控性等各个方面都表现优异。因此,LLM-Based Agent可以是非常强大的语言生成器。

3. 工具的使用

  工具是工具使用者能力的扩展。当面对复杂的任务时,人类使用工具来简化任务解决和提高效率,从而释放时间和资源。同样,如果智能体也学会使用和利用工具,它们也有可能更高效、更高质量地完成复杂任务。
  LLM-Based Agent在某些方面存在局限性,使用工具可以增强代理的能力。首先,尽管LLM-Based Agent具有强大的知识库和专业知识,但它们不具备记住每一条训练数据的能力。他们也可能由于上下文提示的影响而无法转向正确的知识,甚至产生幻觉知识。再加上缺乏语料库、训练数据以及针对特定领域和场景的调优,在专注于特定领域时,智能体的专业知识也受到限制。专门的工具使法学硕士能够增强他们的专业知识,适应领域知识,并以可插拔的形式更适合特定于领域的需求。此外,LLM-Based Agent的决策过程缺乏透明度,使得它们在医疗保健和金融等高风险领域不那么值得信赖。此外,大语言模型容易受到对抗性攻击,并且它们对轻微输入修改的鲁棒性不足。相比之下,在工具的帮助下完成任务的智能体表现出更强的可解释性和鲁棒性。工具的执行过程可以反映代理处理复杂需求的方法,并增强其决策的可信度。此外,由于工具是专门为其各自的使用场景而设计的,使用此类工具的代理可以更好地处理轻微的输入修改,并且对对抗性攻击更具弹性。
  LLM-Based Agent不仅需要使用工具,而且非常适合工具集成。利用通过预训练过程和CoT提示积累的丰富世界知识,大语言模型在复杂的交互环境中表现出卓越的推理和决策能力,这有助于智能体以适当的方式分解和处理用户指定的任务。此外,大语言模型在意图理解等方面显示出显著的潜力。当代理与工具相结合时,可以降低工具使用的门槛,从而充分释放人类用户的创造潜力。

3.1 理解工具

  智能体有效使用工具的前提是全面理解工具的应用场景和调用方法。如果没有这种理解,智能体使用工具的过程就会变得不可信,无法真正增强智能体的能力。利用大语言模型强大
的零次和少次学习能力[40];41],智能体可以通过使用描述工具功能和参数的零样本提示,或提供特定工具使用场景和相应方法演示的少量样本提示来获取关于工具的知识。这些学习方法与人类通过查阅工具手册或观察他人使用工具进行学习的方法类似。当面对复杂的任务时,单一的工具往往是不够的。因此,智能体首先要以适当的方式将复杂的任务分解成子任务,它们对工具的理解在任务分解中起着重要的作用。

3.2 学会使用工具

  智能体学习使用工具的方法主要包括从演示中学习和从反馈中学习。这涉及到模仿人类专家的行为,以及了解其行为的后果,并根据从环境和人类那里收到的反馈进行调整。环境反馈包括关于行动是否成功完成任务的结果反馈和捕获由行动引起的环境状态变化的中间反馈;人类反馈包括显式评估和隐式行为,如点击链接。如果智能体严格地应用工具而没有适应性,那么它将无法在所有场景中获得可接受的性能。智能体需要将他们在特定情境中学习到的工具使用技能推广到更一般的情境中,比如将一个在Yahoo搜索上训练过的模型转移到谷歌搜索上。要做到这一点,智能体有必要掌握工具使用策略中的共同原则或模式,这可以通过元工具学习来实现。增强智能体对简单工具和复杂工具之间关系的理解,比如复杂工具是如何建立在更简单工具的基础上的,可以有助于智能体概括工具使用的能力。这使得智能体能够有效地辨别各种应用场景之间的细微差别,并将之前学到的知识转移到新的工具中。课程学习允许智能体从简单的工具开始,逐步学习复杂的工具,这与需求是一致的。此外,受益于对用户意图推理和规划能力的理解,智能体可以更好地设计工具利用和协作的方法,从而提供更高质量的结果。

3.3 制作自给自足的工具

  现有的工具通常是为了人类的方便而设计的,这对于智能体来说可能不是最优的。为了让智能体更好地使用工具,就需要专门为智能体设计的工具。这些工具应该更加模块化,具有更适合智能体的输入输出格式。如果提供了说明和演示,LLM-Based Agent还具有通过生成可执行程序或将现有工具集成为更强大的工具来创建工具的能力。他们还可以学习进行自我调试。此外,如果作为工具制造者的智能体成功地创建了一个工具,除了使用工具本身外,它还可以为多智能体系统中的其他智能体生成包含工具代码和演示的包。推测一下,在未来,智能体可能会变得自给自足,并在工具方面表现出高度的自主性。

3.4 工具可以扩展LLM-Based Agent的行动空间

  在工具的帮助下,智能体可以在推理和规划阶段利用各种外部资源,如web应用程序和其他语言模型。这一过程可以为LLM-Based Agent提供高专业度、可靠性、多样性和高质量的信息,促进他们的决策和行动。例如,基于搜索的工具可以借助外部数据库、知识图和网页来提高智能体可访问知识的范围和质量,而领域特定工具可以增强智能体在相应领域的专业知识。一些研究人员已经开发出基于大语言模型的控制器,生成SQL语句来查询数据库,或者将用户查询转换为搜索请求,并使用搜索引擎获得期望的结果。更重要的是,LLM-Based Agent可以使用科学工具执行化学中的有机合成等任务,或者与Python解释器接口,以提高其在复杂的数学计算任务中的性能。对于多智能体系统,通信工具(如电子邮件)可以作为智能体在严格的安全约束下相互交互的手段,促进它们的协作,并表现出自主性和灵活性。

3.5 总结

  虽然前面提到的工具增强了智能体的能力,但与环境交互的媒介仍然是基于文本的。然而,工具是为了扩展语言模型的功能而设计的,它们的输出并不局限于文本。用于非文本输出的工具可以使智能体行为的模式多样化,从而扩展了LLM-Based Agent的应用场景。例如,图像处理和生成可以由一个利用视觉模型的智能体来完成。在航空航天工程中,智能体正在被探索用于物理建模和求解复杂微分方程;在机器人领域,需要智能体来规划物理操作并控制机器人执行等等。能够通过工具或以多模态方式与环境或世界动态交互的智能体可以被称为数字具身。具身智能体一直是具身学习研究的中心焦点。

4. 具身动作

  在追求通用人工智能(AGI)的过程中,具身智能体被认为是一个关键的范式,它努力将模型智能与物理世界相结合。具体化假说从人类智能发展过程中汲取灵感,提出智能体的智能来自于与环境的持续互动和反馈,而不是仅仅依赖于精心策划的教科书。类似地,与传统的深度学习模型(从互联网数据集学习明确的能力来解决领域问题)不同,人们预计LLM-Based Agent的行为将不再局限于纯文本输出或调用精确的工具来执行特定的领域任务。相反,它们应该能够主动感知、理解和与物理环境交互,做出决策,并基于LLM广泛的内部知识产生特定的行为来修改环境。我们将这些统称为具体化的行为,它使智能体能够以一种与人类行为非常相似的方式与世界进行交互和理解。

5. 学习智能体框架

5.1 CrewAI学习进度

  CrewAI学习进度指路:CrewAI Community Version(五)——Flows基础

5.2 LangGraph学习进度

  LangGraph学习进度指路:LangGraph(四)——加入人机交互控制

5.3 MCP学习进度

  MCP学习进度指路:MCP(一)——QuickStart

参考

Zhiheng Xi, Wenxiang Chen, Xin Guo. and et al. The Rise and Potential of Large Language Model Based Agents: A Survey.

总结

  本文探讨了基于大语言模型的智能体如何通过工具使用和具身行为实现类人交互能力。研究表明,虽然LLM赋予智能体强大的文本生成能力,但其在专业知识、决策透明度和抗干扰性等方面仍存在不足。通过理解工具功能、学习使用方法和自主创建工具,智能体显著扩展了行动能力边界。特别值得注意的是,工具不仅帮助智能体获取外部资源,还能实现多模态输出,推动智能体从纯文本交互向"数字具身"形态演进。这种能够通过多模态方式与环境动态交互的具身智能体,被视为实现通用人工智能的重要路径,其核心在于将模型智能与物理世界深度融合,通过持续互动获得类人的适应性和创造性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2378931.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

6.1.1图的基本概念

基本概念 图: 顶点集边集 顶点集:所有顶点的集合,不能为空(因为图是顶点集和边集组成,其中一个顶点集不能为空,则图肯定不为空) 边集:所有边的集合,边是由顶点集中的2…

Linux面试题集合(6)

创建多级目录或者同级目录 mkdir -p 文件名/文件名/文件名 mkdir -p 文件名 文件名 文件名 Linux创建一个文件 touch 文件名 DOS命令创建文件 echo 内容>文件名(创建一个有内容的文件) echo >文件名(创建一个没有内容的文件&#xff09…

时间筛掉了不够坚定的东西

2025年5月17日,16~25℃,还好 待办: 《高等数学1》重修考试 《高等数学2》备课 《物理[2]》备课 《高等数学2》取消考试资格学生名单 《物理[2]》取消考试资格名单 职称申报材料 2024年税务申报 5月24日、25日监考报名 遇见:敲了一…

YOLOv7训练时4个类别只出2个类别

正常是4个类别: 但是YOLOv7训练完后预测总是只有两个类别: 而且都是LFM和SFM 我一开始检查了下特征图大小,如果输入是640*640的话,三个尺度特征图是80*80,40*40,20*20;如果输入是416*416的话,三个尺度特征…

【论文阅读】针对BEV感知的攻击

Understanding the Robustness of 3D Object Detection with Bird’s-Eye-View Representations in Autonomous Driving 这篇文章是发表在CVPR上的一篇文章,针对基于BEV的目标检测算法进行了两类可靠性分析,即恶劣自然条件以及敌对攻击。同时也提出了一…

flutter 配置 安卓、Ios启动图

android 配置启动图 launch_background.xml <?xml version"1.0" encoding"utf-8"?> <!-- Modify this file to customize your launch splash screen --> <layer-list xmlns:android"http://schemas.android.com/apk/res/android&…

基于朴素贝叶斯与 LSTM 的假新闻检测模型对比分析

一、引言 在信息爆炸的时代&#xff0c;假新闻的传播对社会产生了诸多负面影响。如何快速、准确地识别假新闻成为了重要的研究课题。本文将对比传统机器学习算法&#xff08;朴素贝叶斯&#xff09;与深度学习模型&#xff08;LSTM&#xff09;在假新闻检测任务中的性能表现&am…

【LeetCode 热题 100】搜索插入位置 / 搜索旋转排序数组 / 寻找旋转排序数组中的最小值

⭐️个人主页&#xff1a;小羊 ⭐️所属专栏&#xff1a;LeetCode 热题 100 很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~ 目录 搜索插入位置搜索二维矩阵在排序数组中查找元素的第一个和最后一个位置搜索旋转排序数组寻找旋转排序数组中的最小值…

副业小程序YUERGS,从开发到变现

文章目录 我为什么写这个小程序网站转小程序有什么坑有什么推广渠道个人开发者如何变现简单介绍YUERGS小程序给独立开发者一点小建议 我为什么写这个小程序 关注我的粉丝应该知道&#xff0c;我在硕士阶段就已经掌握了小程序开发技能&#xff0c;并写了一个名为“约球online”…

基于LLM合成高质量情感数据,提升情感分类能力!!

摘要&#xff1a;大多数用于情感分析的数据集缺乏意见表达的上下文&#xff0c;而上下文对于理解情绪往往至关重要&#xff0c;并且这些数据集主要局限于几种情绪类别。像 GPT-4 这样的基础大型语言模型&#xff08;Foundation Large Language Models&#xff0c;LLMs&#xff…

网络检测工具InternetTest v8.9.1.2504 单文件版,支持一键查询IP/DNS、WIFI密码信息

—————【下 载 地 址】——————— 【​本章下载一】&#xff1a;https://drive.uc.cn/s/295e068b79314 【​本章下载二】&#xff1a;https://pan.xunlei.com/s/VOQDXguH0DYPxrql5y2zlkhTA1?pwdg2nx# 【百款黑科技】&#xff1a;https://ucnygalh6wle.feishu.cn/wiki/…

【网络编程】十、详解 UDP 协议

文章目录 Ⅰ. 传输层概述1、进程之间的通信2、再谈端口号端口号的引出五元组标识一个通信端口号范围划分常见的知名端口号查看知名端口号协议号 VS 端口号 3、两个问题一个端口号是否可以被多个进程绑定&#xff1f;一个进程是否可以绑定多个端口号&#xff1f; 4、部分常见指令…

[目标检测] YOLO系列算法讲解

前言 目标检测就是做到给模型输入一张图片或者视频&#xff0c;模型可以迅速判断出视频和图片里面感兴趣的目标所有的位置和它 的类别&#xff0c;而当前最热门的目标检测的模型也就是YOLO系列了。 YOLO系列的模型的提出&#xff0c;是为了解决当时目标检测的模型帧率太低而提…

.NET NativeAOT 指南

目录 1. 引言 2. 什么是 .NET NativeAOT&#xff1f; 2.1 NativeAOT 的定义 2.2 NativeAOT 与传统 JIT 的对比 2.3 NativeAOT 的适用场景 3. NativeAOT 的核心优势 3.1 性能提升 3.2 简化部署 3.3 更小的应用体积 3.4 知识产权保护 4. NativeAOT 的基本用法 4.1 环境…

uniapp-商城-57-后台 新增商品(弹窗属性数据添加父级)

后台增加商品&#xff0c;需要添加相关的数据信息&#xff0c;这里还要添加属性&#xff0c;前面已经对相关的界面布局继续了编写。这里还要对页面添加的数据&#xff0c;置入到云数据库&#xff0c;继续永久保存&#xff0c;便于后期的使用。这里主要是讲属性数据 父级信息的添…

摩方 12 代 N200 迷你主机(Ubuntu 系统)WiFi 抓包环境配置教程

摩方12代N200迷你主机标配 Intel AX201无线网卡&#xff0c;支持 WiFi 6 协议&#xff08;802.11ax&#xff09;及蓝牙5.2。此网卡兼容主流抓包工具&#xff0c;但需注意&#xff1a; 驱动兼容性&#xff1a;Ubuntu 20.04及以上内核版本&#xff08;5.4&#xff09;默认支持AX2…

Unity(URP渲染管线)的后处理、动画制作、虚拟相机(Virtual Camera)

一、URP渲染管线 渲染管线是一系列渲染操作的集合&#xff0c;Unity提供了内置渲染管线&#xff08;Built-In&#xff09;和可编程渲染管线&#xff08;SRP&#xff09;两类渲染管线。内置渲染管线是Unity的默认渲染管线&#xff0c;其自定义选项有限。而可编程渲染管线可以通…

mac-M系列芯片安装软件报错:***已损坏,无法打开。推出磁盘问题

因为你安装的软件在Intel 或arm芯片的mac上没有签名导致。 首先打开任何来源操作 在系统设置中配置&#xff0c;如下图&#xff1a; 2. 然后打开终端&#xff0c;输入&#xff1a; sudo spctl --master-disable然后输入电脑锁屏密码 打开了任何来源&#xff0c;还遇到已损坏…

Echart地图数据源获取

DataV.GeoAtlas地理小工具系列 选择需要的区域地图,选中后输出即可: 地图钻取代码 <!DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8"><title>map</title><style>html, body, #map{margin: 0;…

GNSS数据自动化下载系统的设计与实现

摘要 本文详细介绍了三种不同设计的GNSS数据自动化下载系统&#xff0c;分别针对IGS观测数据、GRACE-FO Level-1B数据以及通过代理服务器获取数据的需求场景。系统采用Python实现&#xff0c;具备断点续传、完整性校验、异常处理和进度显示等核心功能。实验结果表明&#xff0…