ICLR 2026 | 告别Top-K检索!RF-Mem在嵌入空间逐步重构证据链,实现长记忆渐进式唤醒

news2026/4/1 8:18:10
今天分享一篇来自大连理工大学、香港城市大学、华为和中国科学技术大学的最新工作RF-Mem发表于ICLR 2026。这篇工作关注个性化大模型中的一个关键问题当用户历史越来越长时模型到底该怎样从海量记忆里准确找回“此时此刻最相关的那一段”现有方法大多停留在一次性向量 Top-K 的“快检索”范式中它反应迅速、成本可控但也天然偏向表层相似面对含糊提问、长尾细节或需要串联多段经历的问题时往往只能“捞到几片碎片”甚至把无关记忆一并带上来。RF-Mem 的核心想法很直观也很有启发性突破传统“快检索”提出一种“慢回忆”机制。借鉴人类记忆中的双加工理论RF-Mem 不再把检索看成一次性命中而是拆成两条路径。对于“很熟悉”的问题直接走快速的Familiarity路径对于“没那么熟悉”或“候选结果不确定”的问题则启动更深入的Recollection路径像人类回忆往事一样顺着线索逐步重建上下文把真正关键的证据一点点找出来。实验表明RF-Mem 在 PersonaMem、PersonaBench 和 LongMemEval 三个基准上都取得了稳定提升并在固定预算和延迟约束下持续优于 one-shot retrieval 与 full-context 方法。摘要个性化大模型的效果很大程度上取决于它能否从用户长期历史中检索出真正相关的记忆。现有记忆检索方法大多将问题简化为一次性相似度搜索也就是一种“快检索”或者粗暴地把全部历史塞进提示词中但这两种方式都难以兼顾准确性、效率与可扩展性。RF-Mem 从认知科学中的Recollection-Familiarity Dual-Process Theory出发指出用户记忆检索不应只停留在快速识别还应具备一种在必要时被唤起的“慢回忆”能力。Problem Figure具体来说RF-Mem 先通过一次 probe retrieval 得到初步候选并用平均相似度与分布熵共同衡量 familiarity signal。若问题与用户记忆高度匹配就沿着Familiarity路径执行低开销的一步式 top-K 检索若匹配不充分或候选分布存在较高不确定性则切换到Recollection路径通过聚类、query-centroid mixing 和多轮扩展在 embedding space 中逐步重建更完整的证据链。这样的设计既避免了 full-context 的昂贵开销也弥补了传统“快检索”在复杂个性化场景下“检得快但检不深”的不足。主要创新点提出面向个性化记忆检索的双路径框架首次将认知科学中的 Familiarity-Recollection 双加工理论系统引入个性化 LLM 记忆检索让检索过程具备“快速识别”和“深度回想”两种模式。设计基于不确定性的自适应切换机制不只看 top-K 分数高不高还结合候选分布的熵来判断“模型到底熟不熟悉这个问题”从而决定是一步检索还是进入多轮 recollection。提出 stepwise recollection retrieval在 Recollection 路径中通过 KMeans 聚类候选记忆并将 cluster centroid 与原 query 做混合更新实现链式、渐进式的证据重构而不是停留在一次向量匹配。兼顾效果与效率RF-Mem 不依赖额外的大规模生成过程主要建立在向量检索与轻量聚类之上因此既能提升复杂问题上的检索质量也能保持接近 one-shot retrieval 的延迟。方法Method Figure整体框架RF-Mem 的整体流程可以概括为四步输入用户问题Familiarity Selection对用户记忆做一次探针检索并根据平均相似度与熵判断当前问题在记忆库中的熟悉度执行对应的记忆检索路径熟悉度高Familiarity Retrieval熟悉度低走Recollection Retrieval将检索出的记忆交给 LLM 生成最终回答。这个框架的关键不在于“检索得更多”而在于根据问题难度和熟悉度动态决定应该检索得多深。Familiarity Selection先判断“这个问题熟不熟”RF-Mem 并不默认所有问题都需要复杂推理而是先通过一次轻量 probe retrieval 估计熟悉度。具体来说它会对初步候选记忆的相似度分数进行统计计算Mean Score反映候选记忆整体上与当前问题有多接近Entropy反映候选分布是否集中还是存在明显不确定性。直觉上如果平均分高、而且候选分布很集中那么说明模型已经“心里有数”直接走 Familiarity 路径即可相反如果平均分偏低或者虽然分数不算太差但候选分布很分散那么说明当前问题可能涉及更深层的用户背景这时就需要启动 Recollection。这一设计对应了人类记忆中的经典现象熟悉的问题可以快速认出不熟悉的问题则需要慢慢回想。Familiarity Retrieval高熟悉度下的一步式命中当 familiarity signal 足够强时RF-Mem 采用 Familiarity 路径。这个阶段非常直接基于 query embedding 与记忆 embedding 的相似度返回 top-K 记忆片段。它的优势在于延迟低基本保持 dense retrieval 的效率开销小不需要额外推理与扩展适合“事实清晰、表达直接”的问题例如基础信息、显式偏好、明显可匹配的个人背景。换句话说RF-Mem 并不是一味追求“更复杂的检索”而是在该简单的时候果断简单。Recollection Retrieval低熟悉度下的“慢回忆”真正体现 RF-Mem 新意的是它的 Recollection 路径。当系统判断当前问题“不够熟悉”时它不会停在第一次检索结果上而是进入一个retrieve-cluster-mix-iterate的循环过程Retrieve先取回一批候选记忆Cluster对候选记忆做聚类找到若干语义中心Mix将当前 query 与 cluster centroid 做混合得到新的 recollect queryIterate用新的 recollect query 继续检索逐步扩展相关证据链。这种做法很像人类回忆的过程一开始也许只记得一个模糊线索但顺着这个线索往下想就会慢慢把事件背景、个人偏好和上下文关系一起带出来。从上面的图也能更直观看到这一点。面对“Can you suggest some new evidence-based practices to explore for healthcare decision-making?” 这样的提问传统 one-shot familiarity retrieval 虽然能抓到 “effective and safe”“complement conventional treatments” 这类局部相关片段却也容易混入 “I tried a new healthy recipe…” 这样的噪声最后导致答案偏移。相比之下RF-Mem 的 recollection 路径会继续沿着线索向外扩展把 “conventional medicine”“evidence-based practices resonate” 等更关键的上下文逐步串联起来从而得到更完整、更可靠的个性化证据。与传统“单跳检索”相比Recollection 的优势在于能更好处理模糊问题、上下文依赖问题、长尾偏好问题能逐步恢复跨轮次、跨时间分散存储的用户记忆能在不读取 full context 的前提下构造更完整的证据链。RF-Mem 为什么比“全量记忆输入”更合理很多个性化系统的一个常见思路是既然怕快检索漏掉关键信息那就把用户历史全都给模型看。但问题在于这样做在用户记忆变长后会迅速失控token 成本极高上下文长度受限噪声信息大量引入模型难以判断什么才是真正关键的历史片段。RF-Mem 的思路恰好相反不是把所有记忆都暴力灌进去也不是执着于更快地做一次检索而是引入一种“慢回忆”机制按需唤起关键记忆。这也正是它在大规模长期记忆场景下仍然有效的核心原因。实验评测基准与设置RF-Mem 在三个代表性任务上进行了系统评测PersonaMem关注个性化生成测试模型能否根据用户长期历史给出与当前 persona 一致的回答PersonaBench关注个性化检索强调从私人文档中找回与用户信息相关的记忆LongMemEval关注长程记忆下的信息定位与检索能力。实验同时覆盖了不同 memory corpus scale以及多种 embedding backbone包括 MiniLM、MPNet 与 BGE说明 RF-Mem 的改进并不依赖某一个特定检索器。主实验结论RF-Mem 在三类基准上都展现出一致优势。PersonaMem关注的是“检索出来的记忆最终能不能真正帮助模型完成个性化生成”。可以看到RF-Mem 在32K、128K 和 1M三种 memory corpus 下都取得了最高 overall accuracy分别达到0.6350、0.5394 和 0.4589。这说明 RF-Mem 的优势并不局限于小规模记忆而是随着用户历史不断变长依然能够稳定找到对回答最有帮助的记忆证据。与Full Context相比RF-Mem 在效果更优的同时输入 token 显著更少尤其在1M规模时Full Context 已经out-of-context而 RF-Mem 仍然能够稳定工作。与始终执行 Recollection 的方案相比RF-Mem 保留了“慢回忆”的效果优势同时显著降低延迟例如在32K设定下RF-Mem 的检索时间为5.09ms低于 Recollection 的7.09ms。Method FigurePersonaBench关注的是“能不能把真正相关的个性化记忆检回来”。在这项检索任务上RF-Mem 在不同 embedding backbone 下都表现出很强的稳定性。无论是 Basic Info、Social Info还是更难的 Preference HardRF-Mem 都能保持与最强基线相当甚至更优的 Recall5 和 Recall10。换句话说它并不是只在某一类简单问题上有效而是在不同类型的个人信息检索上都具备更稳的覆盖能力。Method FigureLongMemEval它更强调长程记忆场景下的检索能力。这里可以更清楚地看到 RF-Mem 的核心价值单纯的 Familiarity 虽然快但容易漏掉更深层、跨时间分散的信息纯 Recollection 虽然更强但代价也更高而 RF-Mem 则在两者之间取得了更好的平衡在保持较低延迟的同时持续取得更高或更稳的 Recall 表现。把三张图放在一起看RF-Mem 的价值就非常明确了它不只是“准确率更高”而是系统性地证明了在个性化记忆检索里更好的方向不是一味追求更快而是在必要时让系统具备“慢回忆”的能力。为什么 RF-Mem 的提升更稳定Case FigureRF-Mem 的提升之所以更稳定关键在于它抓住了个性化记忆检索里最容易被忽略的一点用户真正需要的往往不是“最像问题的话”而是“最能解释用户意图的那段记忆”。传统方法通常默认一次 top-K 检索就足够了但个性化场景往往并不是这样。很多问题表面上和多段用户历史都有关联可真正决定回答方向的往往藏在更深层、更分散的记忆线索里。需要记忆检索系统像人类回忆往事一样顺着线索逐步重建上下文把真正关键的证据一点点找出来。。如图 healthcare case 就很典型。用户问的是“Can you suggest some new evidence-based practices to explore for healthcare decision-making?”对传统 Familiarity 来说这个问题会和大量 health-related memory 产生表面相似因此它很容易先抓到 “effective and safe”“complement conventional treatments” 这类片段甚至还可能混入 “I tried a new healthy recipe…” 这样的噪声内容。也就是说快检索虽然能迅速找到“像”的内容但这些内容未必真正决定用户想要什么。问题的关键在于这个用户真正重要的偏好并不只是泛泛的 healthcare interest而是更深层的倾向他更认同conventional medicine也更看重evidence-based practices。这些信息未必会在第一次 top-K 中完整出现却恰恰决定了回答应该朝哪个方向展开。RF-Mem 的不同之处就在于它不会把第一次命中的局部相似当作终点而是会在熟悉度不足时继续启动 Recollection顺着已有线索逐步扩展把 “focus on conventional medicine”“evidence-based practices resonate” 这类更关键的记忆重新串联起来。因此RF-Mem 的稳定性并不是因为它在某个数据集上偶然更强而是因为它更符合个性化记忆检索的本质。它检索到的不再只是“和问题沾边”的内容而是能够真正支撑回答方向的证据链。也正因为如此RF-Mem 的优势不会只体现在某一类 query 上而是能在不同场景下都更稳地找到“真正重要的那段记忆”。RF-Mem 还能和其他方法结合吗可以而且这是论文里一个很亮眼的点。论文专门做了 adaptive study验证 RF-Mem 可以作为一个在线检索层与不同类型的上游或离线模块灵活组合适配 MemoryBank 这类离线 index building 方法RF-Mem 不替代已有 memory index而是在检索阶段提供更灵活的双路径调用适配 HyDE 这类 query expansion 方法即便 query 先被扩展RF-Mem 仍能继续发挥 familiarity-recollection 的动态切换优势适配 Search-o1 这类 iterative RAG 方法面对不断演化的新 queryRF-Mem 也可以作为底层 memory retrieval 模块持续工作。这说明 RF-Mem 不是一个封闭方案而是一个具有模块化与可插拔性的 retrieval controller。总结RF-Mem 最值得关注的地方不只是提出了一个新检索技巧而是它重新定义了个性化记忆检索的思路突破传统“快检索”在检索侧引入一种可以被动态唤起的“慢回忆”。这种视角带来了两个直接收益在熟悉问题上保留高效率在复杂问题上获得更深、更完整的记忆证据。对于个性化 LLM 来说这意味着模型不再只是“把记忆库查一遍”而是真正具备了一种更接近人类的“唤起记忆”能力。RF-Mem 也因此给出了一个很鲜明的判断下一代个性化检索不只是更快地找而是更会想、更会回忆。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2471334.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…