一篇不错的自进化Agents最新系统性综述

news2026/5/6 7:15:44
近期厦门大学、香港理工大学、马里兰大学、华盛顿大学圣路易斯分校、UIUC、新加坡管理大学等多机构联合发布了一篇关于Self-Evolving Agents自进化智能体的系统性综述A Systematic Survey of Self-Evolving Agents: From Model-Centric to Environment-Driven Co-Evolution当 LLM Agent 不再只是被人类标注数据训练出来而是能够主动探索、获得反馈、更新策略、积累经验时我们应该如何理解它的“自进化”图1Self-Evolving Agents 代表性工作发展趋势从2022年到2026年围绕 Agent 的研究快速从以模型自身能力增强为中心逐步走向通过环境交互获取反馈、积累经验并进一步发展为模型与环境相互驱动、共同进化的新范式。一条越来越清晰的技术主线正在形成Agent 的能力边界不只取决于模型参数也取决于它如何与环境交互并从交互中持续获得可用的学习信号。为什么需要 Self-Evolving Agents传统 Agent 系统大多依赖一个“两阶段范式”Pre-Training通过大规模语料学习通用世界知识Post-Training通过 SFT、RLHF、RLAIF 或任务数据让模型学习特定的 Agentic 能力。这个范式已经极大推动了 LLM Agent 的发展但它也有一个越来越明显的瓶颈Agent 越复杂对高质量监督信号的依赖就越强而高质量人类标注、人工奖励和专家反馈很难无限扩展。对于简单问答任务人类可以直接写答案对于复杂 Agent任务人类不仅要判断最终答案还要理解多步规划、工具调用、环境反馈、错误恢复和长期状态变化。监督成本急剧上升。Self-Evolving Agents 应用更关键的是如果 Agent 永远依赖人类提供学习信号那么它的能力上限很容易被人类经验、标注规模和预定义任务边界限制住。因此Self-Evolving Agents 的核心动机是让 Agent 从被动接受人类监督转向主动构造问题、探索环境、生成反馈、修正策略并在闭环中持续提升。这篇 survey 将 Self-Evolving Agents 概括为两个核心特征Strong autonomy with minimal human supervision尽量减少对外部人工监督的依赖Active exploration through interaction通过内部推理或外部环境交互主动探索和改进。换句话说自进化 Agent 不再只是一个“被训练好的模型”而更像是一个可以参与自身成长过程的系统。统一分类三条自进化路线这篇 survey 最重要的贡献是提出了一个统一 taxonomy将 Self-Evolving Agents 划分为三大范式Model-Centric Self-Evolution模型中心自进化Environment-Centric Self-Evolution环境中心自进化Model-Environment Co-Evolution模型-环境共同进化。图2Self-Evolving Agents 统一分类框架图2给出了全文的核心分类框架。这个框架的关键之处在于它不是简单按照任务类型或技术模块划分而是按照“进化发生在哪里”来组织整个领域如果进化主要发生在模型内部就是 Model-Centric如果进化来自模型对外部知识、经验、工具和结构的利用就是 Environment-Centric如果模型和环境都在持续变化并互相推动对方变强就是 Model-Environment Co-Evolution。这一视角的重要性在于它将原本分散的研究方向统一到一个递进式框架中从模型内部计算与参数更新驱动的能力增强到环境交互与反馈驱动的经验积累再到模型与环境相互适应、共同演化。图3Self-Evolving Agents 技术谱系总览图3进一步展开了 Self-Evolving Agents 的完整技术分类将不同演化路径下的方法系统组织起来展示了该领域从内部能力增强、外部环境交互到模型-环境共同演化的整体技术版图。它基本可以作为理解当前 Self-Evolving Agents 研究格局的一张技术地图。Model-Centric Self-Evolution模型先自己变强第一条路线是Model-Centric Self-Evolution。这类方法的基本假设是模型内部已经包含大量潜在能力只是没有被充分激发。因此自进化首先可以从模型自身出发通过更多推理计算、更好的搜索策略或者自生成训练数据来提升能力。这一路线可以进一步分成两类3.1 Inference-Based Evolution推理时自进化这类方法不更新模型参数而是在单次推理过程中投入更多计算资源让模型“想得更充分”。代表方向包括Parallel Sampling并行采样多条推理路径再通过投票、排序或一致性判断选择答案Sequential Self-Correction生成、反思、修正形成多轮自我纠错Structured Reasoning将推理过程组织成树、图等结构。它的本质是用更多 test-time compute 换取更可靠的单次输出。但问题也很明显这种改进通常是临时的。推理结束后模型参数没有变化能力不会被真正内化。3.2 Training-Based Evolution训练时自进化相比之下Training-Based Evolution 追求长期能力提升。模型会生成数据、筛选数据、评估数据并通过 SFT 或 RL 将新能力写回参数。这篇 survey 将其分为两条路线Synthesis-Driven Offline Self-Evolving离线生成合成数据再用于训练Exploration-Driven Online Self-Evolving在线探索、实时反馈、持续更新策略。图4离线合成驱动进化与在线探索驱动进化对比图4很好地展示了二者差异。离线合成方法更像“模型给自己出教材”可以高效启动但容易受限于初始模型能力在线探索方法则更像“模型不断在探索中试错”能够发现新的策略但对反馈质量、训练稳定性和探索效率要求更高。这也是为什么近年来 R-Zero、Absolute Zero、Agent0等工作受到关注它们不满足于让模型复述已有知识而是尝试让模型通过自博弈、环境反馈或任务探索获得新的训练信号。Environment-Centric Self-Evolution环境成为能力来源第二条路线是Environment-Centric Self-Evolution。如果说 Model-Centric 方法主要关注模型内部如何变强那么 Environment-Centric 方法强调Agent 的进化不只来自参数更新也来自它如何利用外部知识、经验、工具、记忆和多 Agent 结构。这篇 survey 将环境中心自进化分为四个方向Static Knowledge Evolution静态知识演化Dynamic Experience Evolution动态经验演化Modular Architecture Evolution模块架构演化Agentic Topology EvolutionAgent 拓扑演化。4.1 Static Knowledge Evolution从回答问题到主动找知识传统 RAG 通常是“用户问问题系统检索相关文档”。但 Agentic RAG 和 Deep Research 更进一步Agent 会判断自己缺什么知识主动生成查询、浏览网页、收集证据、整合推理并最终生成结构化报告。这意味着检索不再只是一个前置模块而成为 Agent 推理链条中的主动认知行为。4.2 Dynamic Experience Evolution从知识到经验知识解决的是 “what is”经验解决的是 “how to do”。很多 Agent 任务不是缺知识而是缺经验哪种工具调用顺序更稳定哪类错误应该如何恢复哪些历史失败能指导当前决策哪些 workflow 可以复用到新任务因此Dynamic Experience Evolution 关注如何从历史轨迹、成功案例、失败反馈和执行日志中提炼可复用经验。图5静态知识演化与动态经验演化对比图5将 Static Knowledge Evolution 和 Dynamic Experience Evolution 放在一起对比。前者更适合知识密集型任务例如问答、搜索和研究后者更适合逻辑密集、长程规划、多轮交互和 embodied tasks因为这些任务更依赖可迁移的行为经验。4.3 Modular Architecture Evolution记忆、工具和接口也要进化Agent 与环境交互并不是直接发生的而是通过一系列模块完成的例如Memory ModuleTool ModuleInteraction InterfaceProtocolSkill Library。这些模块本身也可以演化。例如Memory 不再只是一个向量数据库而可以是一个能够主动决定保留、遗忘、合并、重写和路由的系统。Tool 也不只是预定义 API而可以被 Agent 自动创建、组合和维护。Interaction Interface 也可以被设计得更适合模型理解和操作从而提升 Agent 的稳定性。这说明 Agent 的能力提升不仅是“模型更强”也是“系统结构更适合模型发挥”。4.4 Agentic Topology Evolution多 Agent 结构自己演化多 Agent 系统过去常常依赖人工设计角色和流程例如 planner、executor、critic、reviewer 等。但在复杂任务中固定流程未必最优。因此Agentic Topology Evolution 研究如何让多 Agent 的通信结构、角色分配、团队规模和协作拓扑自动搜索或动态调整。这类方法的核心问题是多 Agent 系统的组织形式能不能也成为一个可学习、可优化、可进化的对象Model-Environment Co-Evolution未来的关键方向第三条路线也是这篇 survey 最强调的未来方向是Model-Environment Co-Evolution。前两类方法各有局限Model-Centric 方法容易缺乏外部验证可能出现错误累积、自我强化幻觉和高方差轨迹过估计Environment-Centric 方法虽然引入了外部知识和反馈但很多环境仍然是静态的、单任务的、不可扩展的。因此一个更理想的方向是不只是模型适应环境而是环境也随着模型能力变化而变化。图6模型-环境共同进化相对于前两类范式的优势图6总结了 Model-Environment Co-Evolution 的优势环境可以根据 Agent 能力动态调整难度按需提供有针对性的反馈并扩展为多任务、可验证、可持续增长的训练场。这一路线包含两个核心方向5.1 Multi-Agent Policy Co-Evolution在多 Agent 场景中环境本身可以由其他 Agent 构成。Agent 之间的协作、竞争、评价和沟通会形成一个动态学习场。例如多个 Agent 可以通过 peer evaluation 互相提供反馈也可以通过多 Agent 强化学习共同优化策略。此时环境不再是静态背景而是由其他正在学习的智能体共同组成。5.2 Environment Training另一条路线是直接训练或生成环境。理想环境应该具备几个特征能够提供可验证反馈能够根据 Agent 能力自动调整难度能够生成多样化任务能够支持长期、开放式探索。Reasoning Gym、AgentGym、Agent-World等工作都在朝这个方向发展。这也是本文的一个重要判断未来 Self-Evolving Agents 的核心挑战不只是训练更强的 Agent而是设计能够和 Agent 一起成长的环境。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2583202.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…