[论文分享] ICLR 2026 Oral GEPA：反思性提示词演化可以超越强化学习

news2026/4/3 1:55:14

摘要大型语言模型LLMs正越来越多地通过强化学习RL方法如群体相对策略优化 GRPO来适应下游任务而这类方法通常需要数千次尝试rollouts才能学习新任务。我们认为与源自稀疏标量奖励的策略梯度相比语言的可解释特性通常为 LLM 提供了丰富得多的学习介质。为了验证这一点我们引入了GEPAGenetic-Pareto这是一款提示词优化器它通过深入结合自然语言反思从试错中学习高层规则。对于任何包含一个或多个 LLM 提示词的 AI 系统GEPA 会采样执行轨迹例如推理过程、工具调用及工具输出并以自然语言对其进行反思从而诊断问题、提出并测试提示词更新并从自身尝试的帕累托前沿Pareto frontier中整合互补的经验。得益于这种设计GEPA 往往仅需极少数次尝试就能转化为显著的质量提升。在六项任务中GEPA 的表现平均优于 GRPO 6%最高可达 20%同时使用的尝试次数减少了多达 35 倍。此外GEPA 还以超过 10% 的优势击败了领先的提示词优化器 MIPROv2例如在 AIME-2025 任务上准确率提升了 12%并在作为代码优化的推理时搜索策略方面展示了广阔的应用前景。1 目前方法存在的问题针对下游任务的性能来优化 LLM通常需要数万次尝试rollouts才能适应新任务。这种样本低效性很快就会成为严重的瓶颈许多下游 LLM 应用涉及昂贵的工具调用或者模型自身的采样推理预算有限又或者根本无法对最大或性能最好的 LLM 进行权重微调。核心挑战在数据稀缺或预算受限的环境下我们如何从每一次昂贵的尝试中提取出最大的学习信号从而实现对复杂的模块化 AI 系统的高效适配2 方法我们引入了GEPAGenetic-Pareto遗传-帕累托这是一种用于复合 AI 系统的反思性提示词优化器它将文本反思与多目标进化搜索相结合。GEPA 利用从新采样轨迹中获取的自然语言反馈迭代地对提示词进行变异。在每次变异中候选提示词均源自其祖先并累积了从观察和 LLM 反馈中获得的高层经验。为了避免困扰贪婪提示词优化的局部最优问题GEPA 维护了一个帕累托前沿Pareto front它不只是演化全局最佳的提示词而是随机探索针对每个问题实例表现顶尖的提示词。这种多样化策略实现了鲁棒的泛化能力并缓解了陷入局部最小值的风险。问题定义我们遵循相关研究将复合 AI 系统 (Compound AI System)定义为由一个或多个语言模型LLM调用组成的模块化系统这些调用可能与外部工具调用交替进行并通过任意控制流进行编排。该定义涵盖了广泛的真实世界 LLM 驱动的 AI 系统包括智能体Agents、多智能体系统以及通用的脚手架技术如 ReAct、Archon 等。我们将此类系统形式化表示为其中表示语言模块指定控制流逻辑分别是全局输入和输出架构Schemas。每个模块都是一个 LLM 子组件是其系统提示词包括指令和少样本示例few-shot demonstrations 是底层的模型权重是输入/输出架构。在运行时负责模块的排序和调用——例如将一个模块的输出传递给另一个模块、条件化调用模块或利用工具 API。通过这种方式可以按任何顺序多次调用不同的模块。给定系统令表示所有模块提示词的集合表示模块权重的集合。因此可学习参数为。对于任务实例 ——其中映射到输入架构包含评估器元数据例如标准答案、评估准则、代码单元测试——系统会生成输出。接着度量指标根据元数据来衡量输出的质量例如计算精确匹配度、F1 分数、通过率等。优化问题因此被定义如下其中为任务分布我们采用这一通用的问题表述允许对语言模块的提示词和权重同时进行更新以便在运行于不同参数空间的优化算法之间进行比较例如 GEPA 与 GRPO 的对比。**样本高效的优化 (Sample-Efficient Optimization)**。在许多现实场景中尝试Rollouts——具体指的调用加上的评估——通常在计算、资金或时间上非常昂贵。因此优化器被限制在训练数据集上最多进行次尝试并拥有对的完全访问权限。目标是在不超过尝试预算的约束下找到能最大化留存性能Held-out performance的参数核心挑战在于在数据稀缺或预算受限的环境下我们如何从每一次昂贵的尝试中提取出最大的学习信号从而实现对复杂的模块化 AI 系统的高效适配GEPA反思性提示词演化其设计灵感源于三大核心原则遗传提示词演化、利用自然语言反馈进行反思以及基于帕累托的候选者选择。GEPA 接收以下输入一个由待优化的基础提示词实例化的系统训练数据集由问题定义描述的任务实例组成任务的标准评估指标反馈函数总尝试预算。需要注意的是GEPA 仅演化提示词集合记作而底层的 LLM 权重记作保持不变。遗传优化循环 (Genetic Optimization Loop)给定一个 AI 系统目标是找到能使任务性能最大化的参数。GEPA 首先建立一个候选池最初仅包含基础系统每个候选者都是的具体实例化。随后进入优化循环不断提出新的候选者直到评估预算耗尽。候选者通过反思性变异或**交叉Crossover**从现有候选者中衍生并受尝试过程中的反馈引导每个候选者都会继承来自其父辈及自身尝试的学习信号从而使 GEPA 能够沿着遗传树积累知识。在每次迭代中GEPA 会选择有潜力的候选者在任务的小批量minibatch上提出并评估一个变体如果该变体优于其父辈则将其连同谱系记录添加到中并在用于选择的验证集上进行评估。在预算耗尽后GEPA 返回在上综合表现最佳的候选者。反思性提示词变异通过“复盘”轨迹来改进指令。GEPA 会记录系统运行时的完整“执行追踪”推理链、工具调用等并结合最终成败利用 LLM 的反思能力进行信用分配。它能精准识别是哪个模块的提示词导致了错误并针对性地修改该指令。如果修改后在小批量测试中得分提高则将其作为新的候选者保留。评估追踪作为诊断信号利用“报错信息”和“人工评语”作为深度反馈。除了模型自发的推理轨迹GEPA 还采集环境返回的“评估追踪”如编译错误、未达标的具体准则或人工给出的详细评语。这些非得分式的文本反馈被转化为feedback_text为提示词的变异提供明确的改错方向即便在缺乏自然语言样本的情况下也能实现高效的定向优化。图 2左图GEPA 反思性提示词演化的核心算法。GEPA 采用迭代工作方式在每次迭代中选择当前的部分候选者进行演化第 7 行在小批量尝试rollouts上执行选定的候选者同时利用特殊的反馈函数获取特定模块的反馈如果可用第 9-10 行详见第 3 节使用 LLM 对提示词进行反思性更新第 11 行并评估实例化新提示词后的系统是否提升了在小批量任务上的性能第 14 行。如果性能有所提升GEPA 随后会在完整的数据集上评估该新系统候选者将其添加到跟踪的候选者列表中并标记该新系统的父辈。右图GEPA 核心算法中使用的候选者选择SelectCandidate子程序其任务是确定在下一次优化迭代中待演化的最佳候选者。GEPA 的主要候选者选择策略是在所有任务实例的帕累托前沿中寻找非支配候选者non-dominated candidates并根据它们在帕累托前沿中出现的频率随机选择其中之一。基于帕累托的候选者选择GEPA 是一个高度模块化的算法支持多种候选者选择策略策略的选择决定了“探索”与“利用”之间的权衡。一种幼稚的方法是始终选择表现最好的候选者但这通常会使优化器陷入局部最优一旦发现某种主导策略就很难再实现超越优化器会在没有学到新的、潜在更好的策略的情况下耗尽预算。图 6a 展示了这种行为在找到一个新策略第一个子节点后搜索过程反复尝试对其进行微调但未能改进最终耗尽了预算。为了解决这个问题GEPA 采用了基于帕累托的“照明illumination”策略Mouret Clune, 2015如算法 2 所示。对于每个训练实例GEPA 都会记录所有候选者中的最高得分从而形成一个帕累托前沿Pareto frontier。在至少一个任务上获得最高分的候选者会被保留而那些被完全支配即在所有任务上表现均不如人意的候选者则会被剔除。从这个筛选后的集合中GEPA 随机采样一个候选者采样概率根据每个候选者在多少个任务中处于领先地位进行加权。这种策略帮助 GEPA 在不膨胀搜索规模的情况下跳出局部最优通过在优化预算内将资源集中在体现“获胜”策略的候选者上有效地平衡了探索与利用。3 实验我们采用标准的训练/验证/测试集划分。优化器拥有对训练集的完整访问权限包括文本和标签以进行程序调优。虽然优化器可以通过跟踪验证集上的得分来监控候选参数的性能例如实现提前停止但严禁直接访问验证实例的内容。我们在六个基准测试上进行了评估AIME-2025、LiveBench-Math、HotpotQA、IFBench、HoVer 和 PUPA。实验使用了 Qwen3 8B 和 GPT-4.1 Mini并与最先进的优化器 MIPROv2、Trace (OptoPrime)、TextGrad 和 GRPO 进行了对比。表 1Qwen3 8B 模型在不同优化器下的基准测试结果。GEPA 和 GEPAMerge 在除 AIME 外的所有基准测试中均以远少于 GRPO 的尝试次数rollouts实现了更好的性能。例如在 IFBench 中GEPA 仅需 678 次尝试就找到了最优提示词准确率达到 38.61%超过了 GRPO 使用 24,000 次尝试后在测试集上取得的 35.88%。表 2在 GPT-4.1 Mini 上评估的不同优化器的基准测试结果。作为一个提示词优化系统GEPA 在闭源模型上同样表现出开箱即用的特性其性能超越了目前最先进的提示词优化器包括 MIPROv2涵盖两种设置仅指令优化“MIPROv2-No-Demos”以及指令与少样本联合优化“MIPROv2”、Trace及其 OptoPrime 优化器和 TextGrad。观察 1反思性提示词演化具有极高的样本效率且能超越权重空间的强化学习。在四个基准测试中GEPA 适配迅速且泛化鲁棒——在尝试次数减少多达 35 倍的情况下表现优于 GRPO2.4 万次尝试最高达 19%。在 6 项任务中有 5 项超过了 GRPO。GEPA 匹配 GRPO 最佳验证得分仅需 243 到 1179 次尝试样本效率最高提升了 78 倍。如果仅计算训练集尝试次数GEPA 达到最优性能仅需 79 到 737 次尝试。观察 2反思性提示词演化使得仅靠“指令优化”就能超越“指令少样本few-shot”的联合优化。我们将 GEPA 与最先进的指令及少样本优化器 MIPROv2 进行对比发现 GEPA 在所有设置下均持续优于 MIPROv2。在 GPT-4.1 mini 上领先幅度高达 11.1%在 Qwen3 8B 上领先 10.3%。GEPAMerge 在所有模型上的综合增益13.33%是 MIPROv25.64%的两倍以上。这表明随着 LLM 指令遵循和自反思能力的提升精心设计的指令优化正逐渐展现出比传统少样本方法更强的优势。表 3在演化框架保持不变的情况下对比 Qwen3 8B 在不同任务下的候选者选择策略。在每一步中“选择最佳候选者”SelectBestCandidateTextGrad 使用的方法Yuksekgonul 等2025仅从得分最高的候选者开始演化。“束搜索”BeamSearch则维持一个前 N 名候选者的池APO 使用的方法Pryzant 等2023但仍容易陷入局部最优。相比之下GEPA 基于帕累托Pareto的选择策略带来了 12.44% 的提升显著优于贪婪策略6.05%和束搜索策略5.11%的增益。图 3不同候选者选择策略的影响对比。*左图如图所示在每次迭代中都选择表现最好的候选者会导致在仅一次迭代后就陷入局部最优从而造成搜索性能欠佳。右图另一方面通过使用基于帕勒托Pareto的候选者选择策略GEPA 能够生成一个平衡的搜索树并在相同的预算范围内找到性能更好的程序。观察 3下一候选者选择策略极大地影响优化轨迹和最终性能基于帕累托的选择具有显著优势。我们将 GEPA 的帕累托采样策略与“始终选择最佳SelectBestCandidate”及“束搜索BeamSearch”基准进行了对比。如表 3 所示这些基准策略往往会导致搜索空间探索不足陷入次优解。GEPA 的帕累托采样在综合性能上比束搜索高出 7.33%比“选最优”策略高出 6.4%。图 3 强调了差异始终选最优虽有即时提升但很快会停滞而帕累托法通过平衡探索与利用能在相同预算内收敛至更高性能的解。观察 4指令优化后的提示词计算成本更低且比少样本提示词泛化效果更好。反思性演化出的指令通常比少样本提示词短得多最高短 9.2 倍。对于复杂任务少样本示例往往长得惊人尤其是像 MIPROv2 这样同时优化多个示例的方法。相比之下GEPA 的提示词保持了简洁性同时提供了巨大的性能增益。较短的提示词不仅降低了 API 调用成本还减少了延迟提高了模型服务系统的整体效率。观察 5系统感知的交叉Crossover策略可以带来巨大收益但变异与交叉之间的预算分配仍需进一步研究。我们引入了一种名为“Merge”的交叉策略。GEPAMerge 可以在 GEPA 的基础上再提升多达 5%综合提升 2%。这种增益源于 Merge 能够识别学习了互补策略的不同演化谱系并从各谱系中挑选不同模块的最佳版本来合成一个最优候选者。虽然在 GPT-4.1 Mini 上效果显著但在 Qwen3 8B 上效果略有下降这可能与超参数设置及交叉策略的启动时机有关。观察 6GEPA 优化的提示词展现出跨模型泛化能力。在“GEPA-Qwen-Opt”配置中提示词是在较弱的 Qwen3-8B 模型上优化的但随后在 GPT-4.1-Mini 上进行评估。尽管提示词源自不同系列的弱模型但在 6 个基准测试中仍实现了 9.00% 的综合提升在 HotpotQA 上甚至高达 27.67%。令人瞩目的是这种“迁移性能”竟然优于那些直接在 GPT-4.1-Mini 目标模型上进行优化的强基准方法如 MIPROv2 (5.64%) 和 TextGrad (6.11%)。总结GEPAGenetic-Pareto作为一种创新性的提示词优化器其核心价值在于打破了单纯依靠海量数据堆砌和盲目强化学习RL的传统范式将自然语言反思深度融入复合 AI 系统的演化过程。该算法不再将大模型视为仅根据稀疏标量奖励进行权重微调的“黑盒”而是通过捕捉和序列化模型在执行任务时的完整思考轨迹、工具调用及环境反馈利用语言作为可解释的学习介质进行精准的隐式信用分配与问题诊断。这种“以语言优化语言”的逻辑让模型能够像人类复盘一样从每一次试错中提取高层规则并结合帕累托前沿的多样化选择策略有效避免了搜索过程中的局部最优问题确保了模型在不同任务场景下的鲁棒性。更具启发性的是其系统感知的合并机制赋予了模型一种跨谱系的“联想”与“整合”能力使其能够博采众长合成出最优的行动方案。GEPA 的成功证明了提升人工智能的关键不在于将其训练成包罗万象的静态百科全书而在于构建一种具备自我反思、逻辑联想与持续进化能力的动态系统从而在极低的数据预算下实现跨模型的卓越泛化与性能飞跃真正开启了从指令跟随向自主进化的思维跨越。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2477305.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！