【NLP】 38. Agent

news2025/12/14 16:11:27

什么是 Agent?

一个 Agent 就是能够 理解、思考,并且进行世界交互 的模型系统,并不是纯粹的 prompt 返回器。

它可以:

  • 读取外部数据(文件/API)
  • 使用记忆进行上下文维持
  • 用类Chain-of-Thought (CoT)方式进行多段思考
  • 使用工具(调用接口)进行行动

代表方式:ReAct 模型

ReAct = Reasoning + Acting

使模型在解决问题时的每一步,要么做思考(Thought),要么进行行动(Action)

示例:

  • Thought: I want to find the latest news about electric vehicles.
  • Action: Search(“latest electric vehicle news”)

通过 prompt 给出格式,展示了没有经过频繁训练的大语言模型也能有效拟真场景操作。


各类系统创造 Agent 方法

单个 LLM + Prompt(如 ReAct、Reflexion)

通过设计精巧的提示(prompt),即使是单个 LLM 也可以模拟出“思考—行动”过程。ReAct 让模型在输出中明确分出 Thought 与 Action,增强推理与操作联动。Reflexion 则在每轮尝试失败后引导模型生成自我反思文本,形成闭环提升效果。

多个 LLM 分工协作(如 AutoGen)

将复杂任务拆解为多个角色协作处理,如规划者(Manager)、执行者(Editor)、校验者(Verifier)。每个角色由单独的 LLM 扮演,协作完成复杂决策流程,提升系统稳定性与准确性。

模型集合动态挑选(如 DyLAN)

DyLAN 不直接用固定模型,而是在任务开始阶段从多个候选 LLM 中动态挑选表现最优的代理组合,形成“专家团队”,提升适应性与任务成功率。

多模态/物理化 Agent(如 WebArena, 机器人)

这类 Agent 不再局限于文本,而具备真实环境交互能力,如浏览网页、操控机器人。WebArena 提供了包含多类网页环境的模拟测试平台,而机器人代理则将自然语言转为实际物理动作。


原型模型 + 记忆系统

  • 短期记忆:Prompt 历史,保持上下文一致性
  • 长期记忆:结合 RAG 机制,通过查询 BM25 或 embedding 检索外部知识,支撑长期任务或补充事实

原型思考技术

Chain-of-Thought

将复杂问题分解为多个可解释的中间步骤,显著提高模型在数学、逻辑、推理类任务的正确率。

Self-consistency(多数投票)

对同一问题生成多个思维链,再对答案进行投票,选择最一致的那个,从而缓解偶发错误的影响。

Tree of Thought

以树结构展开推理,每一步都有多个“想法”分支,通过搜索与剪枝找到最优解,类似规划或博弈搜索。

Reflexion(反思)

引导模型在任务失败后生成反思文本,结合先前经验进行下一轮尝试,持续优化行为。


行动技术补充:

【Toolformer】

通过在生成文本中嵌入特殊标记,模型可以主动决定是否调用外部 API 工具(如计算器、搜索引擎)。训练中利用自监督方式挖掘出自然文本中的合适调用时机,使模型学会判断何时、如何使用工具以增强准确性。

【WebGPT】

模拟人类浏览网页找答案的行为,模型可发出 Search、Click、Quote 等指令访问网页,并在生成答案时引用证据来源。训练采用 RLHF(人类反馈强化学习),提升回答真实度与信息来源可靠性。

【OpenHands / Anthropic】

让语言模型控制完整的 Shell 环境或图形界面,支持写代码、点击界面元素等多步指令操作,并提供执行日志以便审查调试,是实现实用型 AI Agent 的关键平台。


评价指标 / Benchmark

WebShop

模拟电商购物过程的交互测试环境,考验 Agent 理解复杂购买意图与筛选能力。

WebArena

提供丰富多样的真实网页环境(论坛、电商、文档协作等),评估 Agent 的跨页面长链任务能力。

SWE-Bench

来自 GitHub 的真实编程修复任务集,要求模型根据 Issue 编写补丁代码并通过测试,是对代码生成和理解的严苛挑战。

PrivacyLens

通过构造包含敏感信息的用户交互轨迹,测试模型在隐私保护与泄露防范上的表现,衡量其遵守社会规范的能力。


总结

  • Agent = LLM + memory + tools + 世界交互
  • ReAct 是一种 prompt-based agent 实现方案
  • Acting = 超越 token generation,进行世界操作
  • 构建 agent 需要多模态输入、长期记忆、工具集成等支撑能力
  • 新型 benchmark 可衡量推理能力、隐私合规性、网页交互能力等关键维度

LLM Agent 是未来智能系统的关键形态,掌握其结构与方法有助于我们构建更可靠、更通用的 AI 应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2406161.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Windows开机自动启动中间件

WinSW(Windows Service Wrapper 是一个开源的 Windows 服务包装器,它可以帮助你将应用程序打包成系统服务,并实现开机自启动的功能。 一、下载 WinSW 下载 WinSW-x64.exe v2.12.0 (⬇️ 更多版本下载) 和 sample-minimal.xml 二、配置 WinS…

【图片转AR场景】Tripo + Blender + Kivicube 实现图片转 AR 建模

总览 1.将 2D 图片转为立体建模 2. 3. 一、将 2D 图片转为立体建模 1.工具介绍 Tripo 网站 2.找图片 找的图片必须是看起来能够让 AI 有能力识别和推理的,因为现在的AI虽然可以补全但是能力还没有像人的想象力那么丰富。 比如上面这张图片,看起来虽…

LSTM-XGBoost多变量时序预测(Matlab完整源码和数据)

LSTM-XGBoost多变量时序预测(Matlab完整源码和数据) 目录 LSTM-XGBoost多变量时序预测(Matlab完整源码和数据)效果一览基本介绍程序设计参考资料 效果一览 基本介绍 普通的多变量时序已经用腻了,审稿人也看烦了&#…

C#学习12——预处理

一、预处理指令: 解释:是在编译前由预处理器执行的命令,用于控制编译过程。这些命令以 # 开头,每行只能有一个预处理指令,且不能包含在方法或类中。 个人理解:就是游戏里面的备战阶段(不同对局…

Razor编程中@Helper的用法大全

文章目录 第一章:Helper基础概念1.1 Helper的定义与作用1.2 Helper的基本语法结构1.3 Helper与HtmlHelper的区别 第二章:基础Helper用法2.1 无参数Helper2.2 带简单参数的Helper2.3 带默认值的参数2.4 使用模型作为参数 第三章:高级Helper用法…

鸿蒙APP测试实战:从HDC命令到专项测试

普通APP的测试与鸿蒙APP的测试有一些共同的特征,但是也有一些区别,其中共同特征是,它们都可以通过cmd的命令提示符工具来进行app的性能测试。 其中区别主要是,对于稳定性测试的命令的区别,性能指标获取方式的命令的区…

HarmonyOS-ArkUI 自定义弹窗

自定义弹窗 自定义弹窗是界面开发中最为常用的一种弹窗写法。在自定义弹窗中, 布局样式完全由您决定,非常灵活。通常会被封装成工具类,以使得APP中所有弹窗具备相同的设计风格。 自定义弹窗具备的能力有 打开弹窗自定义布局,以…

[electron]预脚本不显示内联script

script-src self 是 Content Security Policy (CSP) 中的一个指令,它的作用是限制加载和执行 JavaScript 脚本的来源。 具体来说: self 表示 当前源。也就是说,只有来自当前网站或者当前页面所在域名的 JavaScript 脚本才被允许执行。"…

开疆智能Ethernet/IP转Modbus网关连接斯巴拓压力传感器配置案例

本案例是将ModbusRTU协议的压力传感器数据上传到欧姆龙PLC,由于PLC采用的是Ethernet/IP通讯协议,两者无法直接进行数据采集。故使用开疆智能研发的Ethernet转Modbus网关进行数据转换。 配置过程 首先我们开始配置Ethernet/IP主站(如罗克韦尔…

【Redis】Redis 的持久化策略

目录 一、RDB 定期备份 1.2 触发方式 1.2.1 手动触发 1.2.2.1 自动触发 RDB 持久化机制的场景 1.2.2.2 检查是否触发 1.2.2.3 线上运维配置 1.3 检索工具 1.4 RDB 备份实现原理 1.5 禁用 RDB 快照 1.6 RDB 优缺点分析 二、AOF 实时备份 2.1 配置文件解析 2.2 开启…

20250607在荣品的PRO-RK3566开发板的Android13系统下实现长按开机之后出现插入适配器不会自动启动的问题的解决

20250607在荣品的PRO-RK3566开发板的Android13系统下实现长按开机之后出现插入适配器不会自动启动的问题的解决 2025/6/7 17:20 缘起: 1、根据RK809的DATASHEET,短按开机【100ms/500ms】/长按关机,长按关机。6s/8s/10s 我在网上找到的DATASHE…

浏览器工作原理01 [#]Chrome架构:仅仅打开了1个页面,为什么有4个进程

引用 浏览器工作原理与实践 Chrome打开一个页面需要启动多少进程?你可以点击Chrome浏览器右上角的“选项”菜单,选择“更多工具”子菜单,点击“任务管理器”,这将打开Chrome的任务管理器的窗口,如下图 和Windows任务管…

智能问数Text2SQL Vanna windows场景验证

架构 Vanna 是一个开源 Python RAG(检索增强生成)框架,用于 SQL 生成和相关功能。 机制 Vanna 的工作过程分为两个简单步骤 - 在您的数据上训练 RAG“模型”,然后提出问题,这些问题将返回 SQL 查询,这些查…

【VLAs篇】02:Impromptu VLA—用于驱动视觉-语言-动作模型的开放权重和开放数据

项目描述论文标题Impromptu VLA:用于驱动视觉-语言-动作模型的开放权重和开放数据 (Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models)研究问题自动驾驶的视觉-语言-动作 (VLA) 模型在非结构化角落案例场景中表现不佳&#xf…

[学习笔记]使用git rebase做分支差异化同步

在一个.NET 项目中,使用了Volo.Abp库,但出于某种原因,需要源码调试,因此,使用源码方式集成的项目做了一个分支archive-abp-source 其中引用方式变更操作的提交为:7de53907 后续,在master分支中…

【Linux应用】Linux系统日志上报服务,以及thttpd的配置、发送函数

【Linux应用】Linux系统日志上报服务,以及thttpd的配置、发送函数 文章目录 thttpd服务安装thttpd配置thttpd服务thttpd函数日志效果和文件附录:开发板快速上手:镜像烧录、串口shell、外设挂载、WiFi配置、SSH连接、文件交互(RADX…

Jmeter(四) - 如何在jmeter中创建网络测试计划

1.简介 如何创建基本的 测试计划来测试网站。您将创建五个用户,这些用户将请求发送到JMeter网站上的两个页面。另外,您将告诉用户两次运行测试。 因此,请求总数为(5个用户)x(2个请求)x&#xff…

2025年上海市“星光计划”第十一届职业院校技能大赛 网络安全赛项技能操作模块样题

2025年上海市“星光计划”第十一届职业院校技能大赛 网络安全赛项技能操作模块样题 (二)模块 A:安全事件响应、网络安全数据取证、应用安全、系统安全任务一:漏洞扫描与利用:任务二:Windows 操作系统渗透测试 :任务三&…

Modbus转ETHERNET IP网关:快速冷却系统的智能化升级密钥

现代工业自动化系统中,无锡耐特森Modbus转Ethernet IP网关MCN-EN3001扮演着至关重要的角色。通过这一技术,传统的串行通讯协议Modbus得以在更高速、更稳定的以太网环境中运行,为快速冷却系统等关键设施的自动化控制提供了强有力的支撑。快速冷…

Linux——TCP和UDP

一、TCP协议 1.特点 TCP提供的是面向连接、可靠的、字节流服务。 2.编程流程 (1)服务器端的编程流程 ①socket() 方法创建套接字 ②bind()方法指定套接字使用的IP地址和端口。 ③listen()方法用来创建监听队列。 ④accept()方法处理客户端的连接…