大模型 Agent 的“记忆”,到底应该怎么设计?

news2026/4/30 7:11:48
本文解读的是论文 《Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework》这篇论文讨论的不是“让模型上下文窗口继续变长”这么简单的问题而是试图回答一个更接近 Agent 落地的核心问题当大模型需要跨多轮对话、跨会话任务、长期用户偏好、动态事实更新和复杂时间推理时系统应该怎样把历史信息存下来、改好、放对位置并在需要时以低成本检索回来。论文的主要贡献是把现有 Agent Memory 方法统一拆成四个模块并在 LOCOMO 和 LONGMEMEVAL 两个长程对话记忆 benchmark 上系统比较代表性方法同时基于实验发现组合出一个新的高性能、低成本记忆框架。论文 Figure 1朴素长上下文提示与记忆增强提示的对比。从论文 Figure 1 可以看到作者真正想强调的是长上下文并不等价于好记忆因为朴素做法会把完整 message history 和当前 query 一起塞进 prompt随着历史变长这种做法会迅速变得 token 密集、高延迟且不可靠相比之下memory-augmented prompting 会在当前 query 到来时先通过 memory system 找到相关信息再把精简后的 evidence 提供给 LLM因此它的目标不是“什么都记住”而是“在正确时刻拿回正确历史”。Agent Memory 统一框架的四个模块。一、这篇论文为什么重要在过去很长一段时间里Agent 记忆系统往往是各做各的MemGPT 更像把 LLM 当作操作系统让模型主动管理记忆Mem0 更强调生产级长期记忆与动态更新Zep 用时间知识图谱组织实体和关系MemTree 把对话组织成树状层级结构MemoryOS 则把记忆分成短期、中期和长期层级。问题在于这些方法在论文中通常只报告整体性能而很少回答一个更细的问题究竟是信息抽取得好还是管理策略有效还是存储结构合理还是检索机制起了决定性作用。本文的价值就在于它把这些方法拆解到同一张架构图里比较使我们不再只能说“某个方法分数更高”而是能够进一步讨论“为什么它更高以及代价是什么”。图片论文 Figure 2Agent Memory 的统一框架。论文给出的统一框架包括四个阶段第一是 Information Extraction负责从当前消息中提取值得写入记忆的信息第二是 Memory Management负责把新信息和旧记忆进行连接、整合、迁移、更新和过滤第三是 Memory Storage负责决定记忆以扁平、层级、向量、图或树等形式存储第四是 Information Retrieval负责在新问题到来时从记忆中找到最相关内容。这个拆法非常适合工程实践因为它把“记忆系统”从一个玄学概念变成了四个可以单独优化、单独替换、单独评测的模块。二、信息抽取记忆系统首先要决定“什么值得记”论文把信息抽取分成三种典型方式最简单的是 direct archiving也就是直接保存原始消息和时间戳更抽象的是 summarization-based extraction通过 LLM 把对话压缩成摘要、关键词和标签更结构化的是 graph-based extraction把对话中的实体关系抽成 subject-predicate-object 三元组并配合时间元数据支持图谱构建和动态更新。图片论文 Figure 4三类信息抽取方式分别对应原文归档、摘要抽取和图谱抽取。这里最容易被误解的一点是结构化并不总是更好因为图谱三元组可以提升组织性和可解释性却也可能在抽取阶段丢掉语境、语气、约束条件和隐含信息论文后续实验中也多次暗示保留原始对话片段对于最终回答很重要尤其当问题需要细节、跨轮推理或上下文还原时只靠摘要或三元组很容易造成语义损失。三、记忆管理真正难的不是存储而是长期维护如果说信息抽取解决的是“写什么”那么记忆管理解决的是“写进去以后怎么办”。论文把记忆管理总结为五类操作连接相关经验、整合碎片记忆、把低层级记忆迁移为高层级记忆、更新已有记忆以及过滤过时或低价值信息。这个部分特别重要因为 Agent 的长期记忆不是静态知识库而是一个会不断被新对话修改、冲突、覆盖和强化的动态系统。图片论文 Figure 5记忆管理流程包括连接、整合、迁移、更新和过滤。论文在 Figure 5 中把 memory management 类比成人类记忆生命周期相关经历会被连接起来零散事件会被抽象成更高层总结短期记忆会在某些条件下迁移到长期存储旧信息会根据新事实被修订低频、过时或重复信息会被过滤掉。这个类比虽然直观但在工程实现中非常困难因为不同方法采用了不同更新范式例如 MemoryBank 使用遗忘曲线式的规则更新Zep 和 MemTree 使用 LLM 进行合并或冲突解决而 MemGPT 和 MemOS 则更偏 agent-based updating让模型自己决定调用什么记忆操作。四、存储与检索向量库不是全部层级结构和图结构同样关键在存储层面论文将方法区分为两个维度一个维度是组织方式也就是扁平存储还是层级存储另一个维度是表示方式也就是向量、图、树或者混合结构。扁平存储实现简单但随着记忆增长容易变成一堆难以维护的记录层级存储可以把短期、中期、长期记忆分开让不同层级承担不同职责图结构适合表达实体关系和多跳路径树结构则适合把大量对话压缩成多粒度摘要使上层节点保留概念结构下层节点保留细节内容。检索层面论文区分了四类方法lexical-based retrieval 依赖关键词和 BM25 等表层匹配vector-based retrieval 依赖 embedding 空间的语义相似度structure-based retrieval 依赖图遍历或树结构扩展LLM-assisted retrieval 则让 LLM 参与 query 改写、实体识别或候选筛选。这里的一个重要启发是长期记忆检索并不应该固定为“embedding top-k”因为不同问题需要不同粒度的检索路径例如姓名、日期和特定短语可能更适合关键词而多跳关系、时间演化和冲突事实则更需要结构化检索或专门的时间处理机制。五、实验设置作者到底比较了什么论文选取了 10 个代表性 Agent Memory 方法包括 A-MEM、MemoryBank、MemGPT、Mem0、Mem0g、MemoChat、Zep、MemTree、MemoryOS 和 MemOS并在两个长程对话记忆 benchmark 上评估它们。LOCOMO 更偏两个人类用户之间的长期对话问答问题类型包括单跳检索、多跳检索、时间推理和开放域知识LONGMEMEVAL 更偏用户与 AI 助手之间的长期交互记忆问题覆盖信息抽取、多会话推理、知识更新和时间推理。评价指标主要使用 F1 和 BLEU-1同时还分析 token cost、上下文扩展性、证据位置敏感性和 backbone 依赖。图片论文 Figure 6LOCOMO 上性能与 token 成本的权衡关系。Figure 6 很适合作为读这篇论文的分水岭因为它展示了一个很现实的事实高性能往往伴随高 token 开销但架构设计会显著改变“花钱是否值得”。MemTree 和 MemOS 的性能较强但 token 成本也高MemoryOS 在性能和成本之间更加均衡MemoChat 和 MemoryBank 成本很低却难以达到足够准确率。这说明 Agent Memory 的工程目标并不是单纯追求最高 F1而是在准确率、延迟、上下文长度、写入成本和检索稳定性之间找到合适平衡。六、总体结果层级化、连接关系和原始信息保留是高性能记忆的关键从 LONGMEMEVAL 和 LOCOMO 的总体结果看树形或层级化方法普遍更强例如 MemTree、MemOS、MemoryOS 和 Zep 都体现出较强竞争力。作者认为这类结构的优势在于它们可以同时保存高层抽象和底层细节上层节点帮助模型快速定位主题下层节点帮助模型还原原始事实因此比单纯扁平向量库更适合长期、多粒度、多会话的记忆任务。图片论文 Figure 8上下文扩展性与证据位置敏感性分析。Figure 8 展示了两个非常关键的鲁棒性现象。第一当 LONGMEMEVAL 的上下文规模从 50% 扩展到 200% 时大多数方法的 F1 会下降说明长期记忆的难点不仅是“能不能召回”更是“在更多无关信息中能不能抗噪声”。第二当 ground-truth evidence 被放在 early、middle、late 不同位置时多数方法对晚近信息更友好也就是说它们存在明显的 recency bias这对真实 Agent 很重要因为用户早期说过的偏好、约束或身份信息可能在很久以后仍然有效但如果系统总是偏向最近几轮就会造成长期个性化失真。图片论文 Figure 9不同任务类别在上下文扩展下的表现变化。Figure 9 进一步说明不同任务对上下文扩展的敏感性并不一样。Knowledge Updates 特别容易受影响因为随着记忆规模增长旧事实、新事实、相似事实和冲突事实会同时出现模型必须判断哪个版本是最新的相比之下Temporal Reasoning 在某些方法中相对稳定因为它依赖事件相对顺序而不是在多个互斥事实之间选择最新版本。这个发现提示我们未来记忆系统很可能需要为“动态事实更新”和“时间推理”设计专门组件而不能只靠通用 embedding 检索。七、新方法把树结构、层级存储和低成本写入组合起来论文最有意思的部分之一是作者并没有停留在评测已有方法而是根据实验观察设计了一个新的记忆框架。这个方法把 MemoryOS 的短期、中期、长期分层思想与 MemTree、MemOS 的树形组织思想结合起来新消息先进入短期 FIFO 队列当短期记忆超过容量后旧消息会按语义相似性切成 segment 并迁移到中期记忆树中叶子节点表示片段摘要父节点表示聚合摘要而访问频率和新近性较高的 segment 会根据 heat score 被提升到长期记忆。图片论文 Figure 11作者提出的新记忆框架。这个新框架的核心不是发明一个全新模块而是把论文前面总结出的经验系统地拼起来短期层保证最近上下文连续性中期树保证多粒度组织长期层保证高价值信息沉淀segment-level 处理则避免逐轮写入带来的高 token 成本。检索时系统会分别从短期、中期和长期记忆中取信息中期记忆还结合 flat vector search 和 tree beam search使模型既能检索高层摘要也能沿树结构找到更细粒度原始消息。图片论文 Figure 10新方法在平均 token 成本上的对比。Figure 10 的重点在于新方法不是单纯靠堆 token 得到高分而是在保持低于 450 tokens 每轮对话平均开销的情况下取得非常强的整体表现。论文在 Table 7 和 Table 8 中显示新方法在 LONGMEMEVAL 和 LOCOMO 上都取得最佳或接近最佳整体 F1并且在 Qwen2.5-7B/72B 等不同 backbone 下保持竞争力这说明合理的记忆架构可以在一定程度上降低对超大 backbone 推理能力的依赖。图片论文 Table 7/8新方法在 LONGMEMEVAL 和 LOCOMO 上的结果。八、这篇论文给 Agent 记忆系统的五条启发第一层级化通常比扁平化更适合长期记忆因为 Agent 既需要高层主题压缩也需要底层原始证据而单层向量库很难同时满足这两个目标。第二原始对话上下文不能被过早丢弃因为摘要和三元组提高了组织性却可能损失语义细节。第三处理粒度决定成本按 segment 而不是逐轮消息写入往往能显著降低 token 消耗。第四记忆更新不应过度依赖破坏式覆盖因为动态重写容易造成旧证据丢失和新近偏置。第五检索策略应当具有路由能力因为不同问题需要关键词、向量、结构遍历或 LLM 辅助检索的不同组合而固定 top-k 很难覆盖所有任务。结语Agent 时代的记忆不是“更长上下文”而是“可维护的长期状态”如果用一句话概括这篇论文它真正提出的是一种从“长上下文崇拜”转向“长期状态管理”的思维方式。对于普通聊天机器人而言把更多历史塞进上下文也许暂时可行但对于长期运行的 Agent、企业助手、科研助手、编程助手和个人助理来说历史信息会持续增长、事实会不断变化、用户偏好会长期存在、旧信息与新信息会发生冲突因此系统必须具备抽取、管理、存储和检索的完整闭环。本文的意义就在于它把 Agent Memory 变成了一个可比较、可诊断、可组合的系统工程问题而不是停留在“模型是否记得住”的抽象讨论上。学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能​因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示​因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2568038.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…