Engram:解锁AI潜能,系统优化新高度!
Engram是一种基于LLM的智能体研究者架构旨在解决系统优化中AI的两个关键局限进化邻域偏差和连贯性上限。通过将长时程探索与单一上下文窗口解耦Engram组织一系列智能体迭代设计、测试和分析机制。每次运行结束时智能体将代码快照、日志和结果归档并提炼高级建模洞见为持久研究摘要。后续智能体以全新上下文窗口开始阅读研究摘要以建立在先前发现之上。Engram在多云组播、LLM推理请求路由和数据库KV缓存重用优化等多个领域展现出卓越性能超越了人类专家设计和现有智能体框架。Improving Coherence and Persistence in Agentic AI for System OptimizationPantea Karimi* MIT Cambridge, USAKimia Noorbakhsh* MIT Cambridge, USAMohammad Alizadeh MIT Cambridge, USAHari Balakrishnan MIT Cambridge, USA摘要设计高性能系统启发式方法是一个需要专家形成假设并执行多步骤概念转换的创造性迭代过程。虽然大型语言模型LLM在自动化这一循环方面显示出潜力但它们在处理复杂系统问题时面临两个关键失效模式进化邻域偏差和一致性天花板。进化方法往往依赖标量基准分数而陷入局部最优在需要协调多步骤变更时失效。相反现有智能体框架在长时程中遭受上下文退化或无法在独立运行间积累知识。我们提出Engram一种智能体研究者架构通过将长时程探索与单一上下文窗口的约束解耦来解决这些局限。Engram将探索组织为一系列智能体迭代地设计、测试和分析机制。每次运行结束时智能体将代码快照、日志和结果存储在持久化档案库中并将高级建模洞察提炼为紧凑的持久化研究摘要。后续智能体以全新的上下文窗口开始阅读研究摘要以构建在先前的发现之上。我们发现Engram在多个领域表现出卓越性能包括多云组播、LLM推理请求路由以及具有自然语言查询的数据库KV缓存重用优化。1 引言为计算机系统设计高性能启发式和算法是一个创造性的迭代过程。专家形成关于系统瓶颈的假设实现候选机制在真实工作负载下测试并利用发现来改进设计——通常通过多步骤概念转换而非代码微调。近期研究探索使用大型语言模型LLM来自动化这一循环[9,15]但先前方法难以可靠地为复杂系统问题产生专家级解决方案。我们识别出两个关键失效模式1进化邻域偏差代码进化系统提出代码变体并使用标量基准分数进行选择[4,23,24,36,40,42]。当进展来自对稳定模板的增量改进时这种方法可能有效但当改进需要协调多步骤变更时往往失效例如重新构建问题、添加可处理的松弛或在迁移到不同算法族时接受暂时的性能回退。2一致性天花板虽然Glia[15]等智能体框架能够实现假设形成和目标实验但它们在长时程设计方面存在困难。单一长时程上下文最终会因注意力变得不均匀而遭受退化和上下文腐烂[18]。相反独立的最优选运行不积累知识每次运行都必须从头重新发现相同的建模洞察。另一方面代码进化方法缺乏长时程一致性因为每次LLM调用都不了解先前尝试背后的思维过程。我们提出Engram一种智能体研究者架构通过将长时程探索与单一上下文窗口的约束解耦来克服这些局限。Engram将探索组织为一系列智能体迭代地设计、测试和分析机制。每次运行结束时智能体将代码快照、执行日志和实验结果归档到持久化档案库中。关键的是Engram引入了一种结构化交接机制每个智能体将高级洞察、发现和失败诊断提炼为紧凑的研究摘要。每个后续智能体以全新的上下文窗口开始阅读研究摘要以构建在先前的发现和发现之上。该架构使Engram能够在数百次试验中维持连贯的研究探索绕过单一上下文智能体线程典型的性能退化。我们的贡献包括增强的长时程一致性我们引入结构化交接和归档机制实现跨智能体的累积进展。持久化研究摘要确保建模洞察和失败诊断在任何单一智能体探索生命周期之外持续存在。发现超越先前最先进水平的新系统启发式Engram在多个领域发现新颖启发式。在多云组播[49]中Engram合成的新组播启发式实现最佳总体成本超越报告的人类最先进水平626和所有进化基线。对于LLM推理请求路由[34]Engram发现的改进策略将平均响应时间降低至23.9秒优于专家设计的启发式以及Glia[15]25.7秒和所有进化基线。在多样问题上超越先前方法我们在九个系统问题上评估Engram——八个来自ADRS基准[46]和LLM请求路由器[15]。Engram在九个设置中的八个超越人类SOTA并在所有评估类别中超越7/9或匹配2/9OpenEvolve。图1基于LLM的启发式设计的三种范式。具有代码突变的进化方法使用预定义上下文格式调用LLM基于标量分数突变和选择候选。具有灵活工具访问的迭代设计如Glia执行连贯的实验引导探索但每次探索受限于有界的LLM上下文窗口。Engram结合智能体探索与共享研究摘要在探索间持久化洞察§3在保持长时程一致性和灵活性的同时提升持续性。表1基于LLM的启发式设计中的权衡。代码突变进化在一致性和灵活性方面有限但具有持续性基于工具的智能体实现连贯灵活的探索但持续性有限。Engram实现三者兼备。方法一致性灵活性持续性进化式代码突变低低高通过灵活工具的迭代设计高高低Engram高高高2 为什么LLM在系统优化问题上表现挣扎优化系统和设计启发式从根本上是一个创造性的多步骤过程。高性能机制很少来自局部代码调整相反它们需要形成关于瓶颈的假设、构建和进行实验、解释实验结果并执行多步骤概念转换[15]。近期研究寻求使用基于LLM的智能体来自动化这一循环[9,15]。我们将当前启发式设计方法分为两类范式并分析它们为何难以维持长时程进展。这些范式是i通过代码突变的进化如OpenEvolve[42]和ii通过推理和工具的迭代设计如Glia[15]。我们沿三个标准分析两者上下文一致性智能体决策是否基于相关发现和先前尝试背后的思维过程灵活性智能体能否采取自由形式的动作如运行代码、检查数据、使用工具而非固定提示格式持续性搜索能否在长时程中继续而不因上下文增长导致质量下降每种范式满足部分但非全部这些标准表1。通过代码突变的进化。在此范式中LLM突变代码候选根据基准评估产生标量分数进而指导后续世代的选择。FunSearch[40]、AlphaEvolve[36]、OpenEvolve[42]、启发式进化[24]和GEPA[3]遵循这一模式ADSR[9]等提案展示如何使用OpenEvolve等框架处理系统问题。这些方法使用从先前候选和分数构建的固定提示模板查询LLM。高分代码存活以孕育下一代。系统优化是一个需要持续反思和从中间失败中学习能力的审议过程。仅提供先前代码和分数快照的固定模板无法编码设计者不断演进的推理思路。例如设计者可能对次优中间解决方案进行实验以收集诊断数据然而代码进化方法往往剪除此类候选因为其即时分数恶化且后续LLM调用缺乏关于此类实验背后思维过程的上下文。通过推理和灵活工具的迭代设计。受Codex[38]等编码智能体启发Glia[15]采取替代路径以增强灵活性和一致性。每次智能体探索在具有工具访问的编程环境中工作通过连贯的动作序列探索设计问题见图1。与进化方法不同智能体可以在测试平台或模拟器上运行实验、执行shell命令、分析实验数据并迭代改进设计。这种方法的弱点是上下文增长最终会达到限制或降低长程思考中的智能体性能质量。Glia[15]提议顺序或并行启动多个独立智能体来缓解这一弱点。然而这些智能体之间不共享任何知识每个智能体经常重新发现先前的洞察限制长程进展。图2Engram的设计基于一系列基于推理的智能体探索根据从实验数据分析得出的假设产生和评估想法。每个智能体通过分析问题并审阅总结先前智能体发现的研究摘要开始利用这些信息制定自己的探索和实验计划。智能体通过设计、实验和分析执行该计划。完成后它将发现摘要写入研究摘要将所有细节存储在档案库中并将研究过程交接给下一个智能体。当研究预算耗尽时该过程通常终止。比较这两种方法进化方法具有持续性但一致性和灵活性较弱第二种方法灵活且连贯但不具有持续性见表1。我们在§4.1的云组播调度问题分析中看到这些局限。Engram通过共享研究摘要弥合这一差距在探索间保留洞察实现一致性、灵活性和持续性。图1说明了三种方法。3 Engram设计Engram结合两个关键思想1使用科学方法探索以发展想法假设→实现→实验→分析→假设循环[15]2创建紧凑、结构化的知识并传递给后续智能体以实现成功构思所需的长时程一致性。Engram结构图2是一系列LLM4.3 案例研究优化数据库自然语言查询中的KV缓存复用本问题关注关系表上的批量LLM推理成本[30]。当LLM顺序处理行时共享长序列化前缀的连续行可以复用键值KV缓存从而降低推理成本。Liu等人[30]提出了一种最先进的重排数据框方法以最大化基于前缀的KV缓存复用。他们的核心洞见是允许每行动态字段排序而非强制所有行使用固定列顺序可以显著提高缓存命中率。这一观察启发了他们设计贪婪组递归GGR算法。需要注意的是对所有可能重排进行暴力搜索在计算上是不可行的。对于具有 行和 列的表可能重排的总数大得惊人为 [30]。我们采用ADRS[9]的评估环境在五个数据集MOVIES、BEER、BIRD、PDMX和PRODUCTS上运行各算法并报告综合得分 其中 是每数据集平均前缀命中率 是归一化运行时间奖励上限为12秒。此外由于我们观察到在重排前合并具有函数依赖的列对所有方法都有益我们在评估时对所有算法应用此合并而非交由各算法自行处理。我们用一个简单基线程序初始化所有方法按基数排序列并按字典序排序行。我们使用任务提示图24该提示完整描述了问题并指出每行采用不同列顺序的好处。在此设置下所有方法表现相当。Engram获得最高平均最佳得分0.721紧随其后的是Glia0.719和OpenEvolve0.714见图10。Engram是最有效的方法实现任意给定得分所需的模拟次数更少。图10所有方法以简单基线程序为种子时LLM-SQL任务的平均最佳得分与模拟次数关系。Engram、Glia和OpenEvolve收敛到相当的最终得分其中Engram收敛更快而FunSearch和EoH落后。GGR[30]线显示最先进算法的得分。有趣的是所有方法产生的最佳程序并未使用GGR的递归结构但仍获得了高分。这些高分的非递归方法都利用每行列重排序来提高缓存复用。对于本案例研究我们还评估了以GGR算法而非简单基线初始化的Engram和OpenEvolve。实验细节见附录B。5 额外评估我们在更大的ADRS问题集[9, 46]上评估Engram和OpenEvolve[42]并与报告的人类SOTA进行比较。成本方面我们使用OpenAI o3[37]。每种方法运行10次我们报告平均最佳得分及90%置信区间表3。Engram在六项任务中的五项上超越人类SOTA并在四项上优于OpenEvolve。在§C.1中我们展示了Engram比OpenEvolve更快达到峰值性能。消融实验。我们在多云数据传输任务上对Engram的主要组件进行消融图11以分离i连贯性上限和ii持久跨智能体知识迁移的影响。单智能体是具有完整工具和执行访问权限但无其他结构的智能体。单智能体表现最差平均成本902它耗尽了有效推理预算运行了更少有意义的实验收敛到较弱的启发式方法。摘要改进了单智能体平均成本765尝试通过压缩旧上下文并允许额外迭代来启用更长的上下文。然而其长程连贯性仍然受限局限于单一摘要上下文表现仍逊于所有多智能体变体。在顺序变体中一个智能体的最佳代码传递给下一个智能体无任何结构化上下文共享无研究摘要和归档。这分离了简单重置跨智能体上下文的好处。顺序相对于单智能体基线提高了性能平均成本700表明新鲜上下文有帮助。然而它仍逊于具有持久跨智能体知识迁移的完整变体。表310次运行的平均最佳得分及90%置信区间越高越好↑越低越好↓。Engram在六项任务中的五项上超越人类SOTA并在四项上优于OpenEvolve。策略CBL ↓CBL-Multi ↓EPLB ↑Prism ↑Telemetry ↑TXN ↑Human SOTA101.792.30.25121.890.8222724.8Engram103.6 ± 1.179.9 ± 0.80.273 ± 0.0027.94 ± 1.700.954 ± 0.003918.6 ± 56.6OE [42]103.4 ± 0.979.9 ± 0.40.214 ± 0.0626.21 ± 0.030.953 ± 0.003713.7 ± 77.9图11多云组播消融实验平均最佳成本越低越好。单智能体变体单智能体和摘要受上下文增长限制表现最差而多智能体变体优于它们。Engram优于单纯的顺序代码传递凸显了持久知识的好处。移除归档或摘要任一组件都会轻微恶化性能。无归档和无摘要变体各移除Engram的一个组件与完整系统相比导致适度但一致的性能下降。移除摘要的负面影响更大表明摘要在指导未来智能体方面比归档中的原始信息发挥更关键作用。6 其他相关工作LLM越来越多地通过推理-搜索循环而非一次性代码生成用于算法发现[27, 52]。先前系统涵盖i多智能体迭代优化[14]ii使用基于适应度选择优化程序种群的进化和树搜索方法如EoH、ShinkaEvolve、AlphaEvolve、MCTS、LAS、X-evolve[23-25, 36, 54, 55]包括近期多目标变体[53]以及iii结合学习信号的方法如在精选轨迹或数据集上的监督/微调[19, 26]。近期智能体树搜索流程及通过网页研究支撑提案的扩展也被探索[6, 28]。工具增强的长程发现也在符号回归中被研究如SR-Scientist[51]。LLM用于系统研究。越来越多的工作涌现使用LLM自动化系统研究。从高层次看这些工作涵盖广泛的系统领域如ADRS[10]以及性能关键工件如C代码[43]和数值内核如AlgoTune[39]的针对性优化。几项工作通过专门接口和反馈解释器形式化这种交互Wei等人[47]提出围绕紧凑DSL构建的智能体-系统接口ASI加上AutoGuide反馈层来优化并行程序的映射器代码而相关ASI风格的闭环已扩展到其他设计空间如神经架构ASI-ARCH[31]。Glia[15]用基于科学方法的推理探索取代了先前工作的直接代码突变。LLM驱动搜索也被应用于发现或调优各种场景中的算法包括SAT求解[45]、自适应比特率流[16]以及拥塞控制和缓存等网络控制策略[12, 17]。在加速器性能工程方面Astra[48]和GPU Kernel Scientist[5]研究了LLM引导的CUDA内核优化。除系统外类似的搜索-改进模板也出现在理论和组合发现中例如使用AlphaEvolve在复杂性理论中寻找新构造[35]。多项工作强调结构化探索以提高质量和新颖性。Robusta[22]将先前工作的组合推理[20, 21]与LLM引导的进化搜索相结合获得具有更强最坏情况保证的网络启发式方法而MetaMuse[32]使用外部刺激、路径点推理和反馈派生的性能嵌入来引导生成促进多样化的高性能算法如缓存替换和装箱。7 结论本文介绍了Engram一种旨在提高长程系统设计任务连贯性的智能体LLM研究者架构。我们识别了先前基于LLM方法的两个核心局限进化邻域偏差和连贯性上限。Engram通过将长程探索与单一上下文窗口的约束解耦来解决这些局限。它将探索组织成一系列智能体迭代设计、测试和分析机制。每次运行结束时智能体将代码快照、日志和结果存储在持久归档中并将高层次建模洞见提炼为紧凑的持久研究摘要。后续智能体以新鲜上下文窗口开始阅读研究摘要以建立在先前发现之上。在三个多样化的案例研究中Engram始终优于进化和迭代智能体基线。除性能提升外我们的结果表明Engram能更有效地跨越概念边界容忍暂时性回退在 promising 算法家族中持续探索并产生创新且原则性的设计。假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2466187.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!