ICLR 2026 | 告别Top-K检索！RF-Mem在嵌入空间逐步重构证据链，实现长记忆渐进式唤醒

news2026/4/1 8:18:10

今天分享一篇来自大连理工大学、香港城市大学、华为和中国科学技术大学的最新工作RF-Mem发表于ICLR 2026。这篇工作关注个性化大模型中的一个关键问题当用户历史越来越长时模型到底该怎样从海量记忆里准确找回“此时此刻最相关的那一段”现有方法大多停留在一次性向量 Top-K 的“快检索”范式中它反应迅速、成本可控但也天然偏向表层相似面对含糊提问、长尾细节或需要串联多段经历的问题时往往只能“捞到几片碎片”甚至把无关记忆一并带上来。RF-Mem 的核心想法很直观也很有启发性突破传统“快检索”提出一种“慢回忆”机制。借鉴人类记忆中的双加工理论RF-Mem 不再把检索看成一次性命中而是拆成两条路径。对于“很熟悉”的问题直接走快速的Familiarity路径对于“没那么熟悉”或“候选结果不确定”的问题则启动更深入的Recollection路径像人类回忆往事一样顺着线索逐步重建上下文把真正关键的证据一点点找出来。实验表明RF-Mem 在 PersonaMem、PersonaBench 和 LongMemEval 三个基准上都取得了稳定提升并在固定预算和延迟约束下持续优于 one-shot retrieval 与 full-context 方法。摘要个性化大模型的效果很大程度上取决于它能否从用户长期历史中检索出真正相关的记忆。现有记忆检索方法大多将问题简化为一次性相似度搜索也就是一种“快检索”或者粗暴地把全部历史塞进提示词中但这两种方式都难以兼顾准确性、效率与可扩展性。RF-Mem 从认知科学中的Recollection-Familiarity Dual-Process Theory出发指出用户记忆检索不应只停留在快速识别还应具备一种在必要时被唤起的“慢回忆”能力。Problem Figure具体来说RF-Mem 先通过一次 probe retrieval 得到初步候选并用平均相似度与分布熵共同衡量 familiarity signal。若问题与用户记忆高度匹配就沿着Familiarity路径执行低开销的一步式 top-K 检索若匹配不充分或候选分布存在较高不确定性则切换到Recollection路径通过聚类、query-centroid mixing 和多轮扩展在 embedding space 中逐步重建更完整的证据链。这样的设计既避免了 full-context 的昂贵开销也弥补了传统“快检索”在复杂个性化场景下“检得快但检不深”的不足。主要创新点提出面向个性化记忆检索的双路径框架首次将认知科学中的 Familiarity-Recollection 双加工理论系统引入个性化 LLM 记忆检索让检索过程具备“快速识别”和“深度回想”两种模式。设计基于不确定性的自适应切换机制不只看 top-K 分数高不高还结合候选分布的熵来判断“模型到底熟不熟悉这个问题”从而决定是一步检索还是进入多轮 recollection。提出 stepwise recollection retrieval在 Recollection 路径中通过 KMeans 聚类候选记忆并将 cluster centroid 与原 query 做混合更新实现链式、渐进式的证据重构而不是停留在一次向量匹配。兼顾效果与效率RF-Mem 不依赖额外的大规模生成过程主要建立在向量检索与轻量聚类之上因此既能提升复杂问题上的检索质量也能保持接近 one-shot retrieval 的延迟。方法Method Figure整体框架RF-Mem 的整体流程可以概括为四步输入用户问题Familiarity Selection对用户记忆做一次探针检索并根据平均相似度与熵判断当前问题在记忆库中的熟悉度执行对应的记忆检索路径熟悉度高Familiarity Retrieval熟悉度低走Recollection Retrieval将检索出的记忆交给 LLM 生成最终回答。这个框架的关键不在于“检索得更多”而在于根据问题难度和熟悉度动态决定应该检索得多深。Familiarity Selection先判断“这个问题熟不熟”RF-Mem 并不默认所有问题都需要复杂推理而是先通过一次轻量 probe retrieval 估计熟悉度。具体来说它会对初步候选记忆的相似度分数进行统计计算Mean Score反映候选记忆整体上与当前问题有多接近Entropy反映候选分布是否集中还是存在明显不确定性。直觉上如果平均分高、而且候选分布很集中那么说明模型已经“心里有数”直接走 Familiarity 路径即可相反如果平均分偏低或者虽然分数不算太差但候选分布很分散那么说明当前问题可能涉及更深层的用户背景这时就需要启动 Recollection。这一设计对应了人类记忆中的经典现象熟悉的问题可以快速认出不熟悉的问题则需要慢慢回想。Familiarity Retrieval高熟悉度下的一步式命中当 familiarity signal 足够强时RF-Mem 采用 Familiarity 路径。这个阶段非常直接基于 query embedding 与记忆 embedding 的相似度返回 top-K 记忆片段。它的优势在于延迟低基本保持 dense retrieval 的效率开销小不需要额外推理与扩展适合“事实清晰、表达直接”的问题例如基础信息、显式偏好、明显可匹配的个人背景。换句话说RF-Mem 并不是一味追求“更复杂的检索”而是在该简单的时候果断简单。Recollection Retrieval低熟悉度下的“慢回忆”真正体现 RF-Mem 新意的是它的 Recollection 路径。当系统判断当前问题“不够熟悉”时它不会停在第一次检索结果上而是进入一个retrieve-cluster-mix-iterate的循环过程Retrieve先取回一批候选记忆Cluster对候选记忆做聚类找到若干语义中心Mix将当前 query 与 cluster centroid 做混合得到新的 recollect queryIterate用新的 recollect query 继续检索逐步扩展相关证据链。这种做法很像人类回忆的过程一开始也许只记得一个模糊线索但顺着这个线索往下想就会慢慢把事件背景、个人偏好和上下文关系一起带出来。从上面的图也能更直观看到这一点。面对“Can you suggest some new evidence-based practices to explore for healthcare decision-making?” 这样的提问传统 one-shot familiarity retrieval 虽然能抓到 “effective and safe”“complement conventional treatments” 这类局部相关片段却也容易混入 “I tried a new healthy recipe…” 这样的噪声最后导致答案偏移。相比之下RF-Mem 的 recollection 路径会继续沿着线索向外扩展把 “conventional medicine”“evidence-based practices resonate” 等更关键的上下文逐步串联起来从而得到更完整、更可靠的个性化证据。与传统“单跳检索”相比Recollection 的优势在于能更好处理模糊问题、上下文依赖问题、长尾偏好问题能逐步恢复跨轮次、跨时间分散存储的用户记忆能在不读取 full context 的前提下构造更完整的证据链。RF-Mem 为什么比“全量记忆输入”更合理很多个性化系统的一个常见思路是既然怕快检索漏掉关键信息那就把用户历史全都给模型看。但问题在于这样做在用户记忆变长后会迅速失控token 成本极高上下文长度受限噪声信息大量引入模型难以判断什么才是真正关键的历史片段。RF-Mem 的思路恰好相反不是把所有记忆都暴力灌进去也不是执着于更快地做一次检索而是引入一种“慢回忆”机制按需唤起关键记忆。这也正是它在大规模长期记忆场景下仍然有效的核心原因。实验评测基准与设置RF-Mem 在三个代表性任务上进行了系统评测PersonaMem关注个性化生成测试模型能否根据用户长期历史给出与当前 persona 一致的回答PersonaBench关注个性化检索强调从私人文档中找回与用户信息相关的记忆LongMemEval关注长程记忆下的信息定位与检索能力。实验同时覆盖了不同 memory corpus scale以及多种 embedding backbone包括 MiniLM、MPNet 与 BGE说明 RF-Mem 的改进并不依赖某一个特定检索器。主实验结论RF-Mem 在三类基准上都展现出一致优势。PersonaMem关注的是“检索出来的记忆最终能不能真正帮助模型完成个性化生成”。可以看到RF-Mem 在32K、128K 和 1M三种 memory corpus 下都取得了最高 overall accuracy分别达到0.6350、0.5394 和 0.4589。这说明 RF-Mem 的优势并不局限于小规模记忆而是随着用户历史不断变长依然能够稳定找到对回答最有帮助的记忆证据。与Full Context相比RF-Mem 在效果更优的同时输入 token 显著更少尤其在1M规模时Full Context 已经out-of-context而 RF-Mem 仍然能够稳定工作。与始终执行 Recollection 的方案相比RF-Mem 保留了“慢回忆”的效果优势同时显著降低延迟例如在32K设定下RF-Mem 的检索时间为5.09ms低于 Recollection 的7.09ms。Method FigurePersonaBench关注的是“能不能把真正相关的个性化记忆检回来”。在这项检索任务上RF-Mem 在不同 embedding backbone 下都表现出很强的稳定性。无论是 Basic Info、Social Info还是更难的 Preference HardRF-Mem 都能保持与最强基线相当甚至更优的 Recall5 和 Recall10。换句话说它并不是只在某一类简单问题上有效而是在不同类型的个人信息检索上都具备更稳的覆盖能力。Method FigureLongMemEval它更强调长程记忆场景下的检索能力。这里可以更清楚地看到 RF-Mem 的核心价值单纯的 Familiarity 虽然快但容易漏掉更深层、跨时间分散的信息纯 Recollection 虽然更强但代价也更高而 RF-Mem 则在两者之间取得了更好的平衡在保持较低延迟的同时持续取得更高或更稳的 Recall 表现。把三张图放在一起看RF-Mem 的价值就非常明确了它不只是“准确率更高”而是系统性地证明了在个性化记忆检索里更好的方向不是一味追求更快而是在必要时让系统具备“慢回忆”的能力。为什么 RF-Mem 的提升更稳定Case FigureRF-Mem 的提升之所以更稳定关键在于它抓住了个性化记忆检索里最容易被忽略的一点用户真正需要的往往不是“最像问题的话”而是“最能解释用户意图的那段记忆”。传统方法通常默认一次 top-K 检索就足够了但个性化场景往往并不是这样。很多问题表面上和多段用户历史都有关联可真正决定回答方向的往往藏在更深层、更分散的记忆线索里。需要记忆检索系统像人类回忆往事一样顺着线索逐步重建上下文把真正关键的证据一点点找出来。。如图 healthcare case 就很典型。用户问的是“Can you suggest some new evidence-based practices to explore for healthcare decision-making?”对传统 Familiarity 来说这个问题会和大量 health-related memory 产生表面相似因此它很容易先抓到 “effective and safe”“complement conventional treatments” 这类片段甚至还可能混入 “I tried a new healthy recipe…” 这样的噪声内容。也就是说快检索虽然能迅速找到“像”的内容但这些内容未必真正决定用户想要什么。问题的关键在于这个用户真正重要的偏好并不只是泛泛的 healthcare interest而是更深层的倾向他更认同conventional medicine也更看重evidence-based practices。这些信息未必会在第一次 top-K 中完整出现却恰恰决定了回答应该朝哪个方向展开。RF-Mem 的不同之处就在于它不会把第一次命中的局部相似当作终点而是会在熟悉度不足时继续启动 Recollection顺着已有线索逐步扩展把 “focus on conventional medicine”“evidence-based practices resonate” 这类更关键的记忆重新串联起来。因此RF-Mem 的稳定性并不是因为它在某个数据集上偶然更强而是因为它更符合个性化记忆检索的本质。它检索到的不再只是“和问题沾边”的内容而是能够真正支撑回答方向的证据链。也正因为如此RF-Mem 的优势不会只体现在某一类 query 上而是能在不同场景下都更稳地找到“真正重要的那段记忆”。RF-Mem 还能和其他方法结合吗可以而且这是论文里一个很亮眼的点。论文专门做了 adaptive study验证 RF-Mem 可以作为一个在线检索层与不同类型的上游或离线模块灵活组合适配 MemoryBank 这类离线 index building 方法RF-Mem 不替代已有 memory index而是在检索阶段提供更灵活的双路径调用适配 HyDE 这类 query expansion 方法即便 query 先被扩展RF-Mem 仍能继续发挥 familiarity-recollection 的动态切换优势适配 Search-o1 这类 iterative RAG 方法面对不断演化的新 queryRF-Mem 也可以作为底层 memory retrieval 模块持续工作。这说明 RF-Mem 不是一个封闭方案而是一个具有模块化与可插拔性的 retrieval controller。总结RF-Mem 最值得关注的地方不只是提出了一个新检索技巧而是它重新定义了个性化记忆检索的思路突破传统“快检索”在检索侧引入一种可以被动态唤起的“慢回忆”。这种视角带来了两个直接收益在熟悉问题上保留高效率在复杂问题上获得更深、更完整的记忆证据。对于个性化 LLM 来说这意味着模型不再只是“把记忆库查一遍”而是真正具备了一种更接近人类的“唤起记忆”能力。RF-Mem 也因此给出了一个很鲜明的判断下一代个性化检索不只是更快地找而是更会想、更会回忆。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2471334.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！