【第三周】论文精读：Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training

news2026/3/21 14:40:12

前言在处理超长上下文Long Context和复杂多跳推理任务时传统的单步检索Single-Step Retrieval往往力不从心而现有的多步检索方法通常需要对大语言模型LLM本身进行昂贵的微调限制了其在大规模模型上的应用。来自俄罗斯 AXXX 与应用人工智能研究所的研究团队提出了Q-RAG一种创新的基于值强化学习Value-Based RL。该方法仅微调嵌入器Embedder将其训练为一个能在潜在空间中执行多步搜索的智能体从而实现了在高达1000 万10M的超长上下文中进行高效、精准的多步检索。实验表明Q-RAG 在 BabiLong 和 RULER 等基准测试中取得了 SOTA 成绩且训练成本极低单卡 A100 仅需 12 小时为长文本理解提供了一种资源高效的新范式。论文基本信息项目内容论文标题Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training核心方法名Q-RAG (Value-Based Multi-Step Retrieval)作者Artyom Sorokin, Nazar Buzun, Alexander Anokhin, et al.所属机构AXXX, Applied AI Institute (Moscow), Innopolis University发表年份2026 (ICLR Conference Paper)核心领域Multi-Step Retrieval, Reinforcement Learning, Long Context (up to 10M tokens), Embedder Fine-tuning关键基准BabiLong, RULER, HotpotQA, Musique代码开源GitHub - griver/Q-RAG 研究背景与痛点1. 现有 RAG 方法的局限单步检索的不足大多数 RAG 系统仅执行一次检索难以应对需要综合多个分散信息片段的多跳推理Multi-hop Reasoning任务。多步检索的高昂成本现有的多步检索方案如 Search-R1, R1-Searcher通常通过强化学习微调LLM 本身来生成中间查询。这不仅计算资源消耗巨大通常需要 8×A100 集群还导致无法灵活搭配不同的 LLM尤其是闭源大模型。长上下文的挑战随着上下文长度增加到百万级甚至千万级 token注意力机制稀释Attention Dilution和计算复杂度呈二次方增长使得传统 Transformer 架构难以直接处理。2. Q-RAG 的核心洞察解耦检索与生成将“在哪里找”检索策略与“怎么答”生成能力解耦。只微调轻量级的嵌入器来学习多步搜索策略而保持 LLM 冻结。潜在空间搜索将多步检索建模为在文本块嵌入的潜在空间中进行的马尔可夫决策过程MDP利用强化学习优化搜索路径。线性扩展性通过向量相似度计算替代复杂的 Transformer 前向传播使得检索成本随上下文长度呈线性增长轻松支持 10M token 级别的任务。️ 核心方法Q-RAG 详解Q-RAG 将多步检索建模为一个有限视野的马尔可夫决策过程MDP并通过时序差分强化学习Temporal Difference RL来训练嵌入器。1. 问题建模检索即搜索 (Retrieval as Search)状态(State,s t s_tst)由初始查询q qq和已检索到的文本块序列组成按文档顺序排列s t ord ( [ q , a 0 , . . . , a t − 1 ] ) s_t \text{ord}([q, a_0, ..., a_{t-1}])stord([q,a0,...,at−1])。动作(Action,a t a_tat)从剩余未检索的文本块集合A t A_tAt中选择下一个文本块c i c_ici。奖励(Reward)稀疏终端奖励若最终检索到的集合包含了所有支持事实Support Facts则奖励为 1否则为 0。中间步骤奖励为 0鼓励智能体规划完整路径。终止条件达到最大步数T TT或智能体选择 STOP 动作。2. 基于值的强化学习 (Value-Based RL with Soft Q-Learning)Q-RAG 采用最大熵强化学习框架使用两个独立的嵌入器来近似 Q 函数状态嵌入器 (E s E_sEs)编码当前状态s t s_tst查询已选片段。动作嵌入器 (E a E_aEa)编码候选文本块c i c_ici及其相对位置信息。Q 值计算通过点积计算状态与动作的匹配度Q θ ( s t , c i ) ⟨ E s ( s t ; θ 1 ) , E a ( c i , ρ t ( i ) ; θ 2 ) ⟩ Q_\theta(s_t, c_i) \langle E_s(s_t; \theta_1), E_a(c_i, \rho_t(i); \theta_2) \rangleQθ(st,ci)⟨Es(st;θ1),Ea(ci,ρt(i);θ2)⟩策略选择使用 Boltzmann 分布根据 Q 值选择下一个文本块引入温度参数α \alphaα控制探索率。训练算法采用PQN(Projected Q-Network) 算法的变体无需经验回放缓冲区Replay Buffer支持在线策略On-Policy训练显著降低了显存占用。使用λ \lambdaλ-return 作为训练目标以提升稳定性。3. 时序推理机制 (Temporal Reasoning)针对叙事性文本中时间顺序至关重要的特点Q-RAG 设计了相对位置编码动态区间映射根据已检索到的事实片段将文档划分为多个时间区间如“在事件 A 之前”、“在事件 A 和 B 之间”。相对索引ρ t ( i ) \rho_t(i)ρt(i)候选文本块的位置不再使用绝对索引而是映射到其相对于已选事实的区间位置。优势使模型能够理解“在找到钥匙之后发生了什么”从而在长叙事中准确定位因果链条即使上下文长达数百万 token。4. 早期停止策略 (Early Stopping)基于 Q 值阈值动态决定何时停止检索。当最大 Q 值低于设定阈值时智能体自动终止搜索避免冗余检索平衡效率与准确率。实验结果与分析作者在多个极具挑战性的长文本基准上进行了评估上下文长度覆盖 4K 至 10M tokens。1. 超长上下文推理 SOTA (BabiLong Benchmark)任务难度BabiLong QA3 子任务需要至少 3 步推理和时序感知是公认的最难长文本任务之一。性能表现在1M 至 10M tokens的极端长度下Q-RAG 保持了96.5%以上的 F1 分数几乎无性能衰减。相比之下其他长文本模型如 Titans, Atlas, Mamba2随着长度增加性能急剧下降。对比基线Q-RAG 显著优于所有基于 LLM 微调的方法如 Search-R1和基于状态空间模型SSM的方法。2. 大海捞针与长文本 QA (RULER Benchmark)NIAH 任务在单针、多针、多值查找任务中Q-RAG 在 4K 至 1M 长度范围内均达到100%或接近 100% 的准确率。多跳 QA在多跳问答子任务中Q-RAG 的表现远超 LongRoPE2 和 Mamba2-Hybrid证明了其在复杂推理中的优势。泛化能力仅在 4K 长度数据上训练的模型直接泛化到 1M 长度时依然保持高精度展现了极强的长度外推能力。3. 开放域问答 (HotpotQA Musique)事实检索Q-RAG 的事实检索 F1 分数0.93与最强的基线 Beam-Retriever0.97相当但推理速度更快。答案生成结合 QwQ-32B 生成答案Q-RAG 在 HotpotQA 和 OOD分布外的 Musique 数据集上均取得了最佳的综合表现Avg Ans F1 0.64。效率对比Beam-Retriever 需要对每个候选轨迹进行 Transformer 重排序计算量大而 Q-RAG 仅需点积运算效率高出数个数量级。4. 资源效率与训练成本单卡训练所有实验均在 **单张 A100 **(80GB) 上完成训练时间不超过12 小时。对比同类基于 LLM 微调的方法如 Search-R1通常需要 8 张 A100 训练数天。Q-RAG 的训练成本降低了约90%。推理延迟由于仅微调嵌入器且使用向量检索推理延迟随上下文长度线性增长远优于二次方增长的 Attention 机制。主要创新点总结**嵌入器微调范式 **(Embedder-Centric RL)首次提出仅通过强化学习微调嵌入器来实现多步检索完全解耦了检索策略与生成模型。这使得该方法可以无缝对接任何 LLM包括闭源模型极大地降低了应用门槛。**时序感知的位置编码 **(Temporal Relative Positioning)创新性地设计了基于已检索事实的动态相对位置编码使模型能够在超长叙事文本中进行精确的时序推理解决了长文本中“时间迷失”的难题。极致的长度扩展性通过在潜在空间进行向量点积搜索避免了 Transformer 的长序列计算瓶颈成功将有效上下文窗口扩展至10M tokens且性能无明显衰减。高效的训练与推理采用 PQN 算法去除回放缓冲区结合在线策略训练实现了单卡快速收敛。推理阶段利用近似最近邻搜索ANN进一步加速具备工业级落地潜力。⚠️ 局限性与挑战依赖支持事实标注目前的训练主要依赖带有支持事实Support Facts标注的数据集。对于仅有最终答案标注的数据设计有效的 LLM 反馈奖励函数仍是未来方向。分块粒度敏感性能受文本分块大小Chunk Size影响较大。过大的块可能包含噪声过小的块可能切断语义需要根据任务调整。多模态支持有限当前方法主要针对纯文本尚未深入探索图像、表格等多模态内容的联合检索。总结与工程建议《Q-RAG》为长文本多步检索提供了一条低成本、高性能的全新路径。它证明了不需要微调庞大的 LLM只需训练一个轻量级的“导航员”嵌入器就能在千万级 token 的知识海洋中精准定位。对开发者的实战建议构建多步检索代理不要局限于单轮检索。对于复杂问题设计一个循环机制检索 - 更新状态 - 再检索。可以使用预训练的嵌入器如 E5, Contriever作为初始化利用业务数据通过 RL 进行微调。引入相对位置编码在处理日志、故事、法律条文等强时序文本时务必在嵌入中加入相对位置信息。不仅记录“这是第几块”更要记录“这在已发现证据的前面还是后面”。低成本微调策略参考 Q-RAG 的思路冻结 LLM只训练双塔嵌入器。这不仅能节省 90% 的算力还能让你随时切换后端 LLM 而不影响检索模块。使用稀疏奖励最终答对给 1否则 0配合λ \lambdaλ-return 即可训练出优秀的策略无需复杂的稠密奖励设计。动态停止机制实现基于置信度Q 值的早停策略。当模型认为后续检索的收益低于阈值时立即停止并生成答案可显著降低平均延迟。应对超长上下文面对百万级文档不要试图一次性塞入 LLM 上下文。采用 Q-RAG 的分块向量搜索架构将上下文压缩为几个关键的“证据片段”再交给 LLM 处理。一句话总结Q-RAG 通过“轻嵌入、重搜索”的策略以极低的训练成本实现了千万级 token 的精准多步检索是构建下一代长文本智能问答系统的核心技术。参考文献[1] Sorokin A, Buzun N, Anokhin A, et al. Q-RAG: Long Context Multi-Step Retrieval via Value-Based Embedder Training[C]//The Thirteenth International Conference on Learning Representations (ICLR). 2026.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2433729.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！