R1-Searcher：用强化学习解锁大语言模型检索新能力！

news2025/7/17 14:17:24

R1-Searcher：用强化学习解锁大语言模型检索新能力！

大语言模型（LLMs）发展迅猛，却常因依赖内部知识而在复杂问题上“栽跟头”。今天解读的论文提出R1-Searcher框架，通过强化学习提升LLMs检索能力。它表现超亮眼，在多数据集上打败强基线模型，还能拓展到在线搜索场景，快来一探究竟！

论文标题
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
来源
arXiv:2503.05592v2 [cs.AI] 18 Mar 2025
https://arxiv.org/abs/2503.05592
PS: 整理了LLM、量化投资、机器学习方向的学习资料，关注同名公众号「 亚里随笔」即刻免费解锁

文章核心

研究背景

在自然语言处理领域，大型推理模型（LRMs）近年来发展迅猛。像OpenAI-o1、Deepseek-R1等模型，借助强化学习（RL）大幅提升了大语言模型（LLMs）的推理能力，在数学、编程等复杂任务上表现亮眼。然而，这些模型存在明显短板。它们过度依赖内部知识储备，面对知识密集型、时效性强的问题，以及本地数据库中的隐私信息时，常常力不从心，容易出现答案不准确甚至凭空捏造的情况。虽然已有研究通过检索增强生成（RAG）等技术为LLMs引入外部信息，但现有方法或是依赖复杂提示设计，泛化性欠佳；或是推理开销大，难以广泛应用。因此，探索新的有效途径来提升LLMs的能力迫在眉睫。

研究问题

依赖内部知识：现有模型在面对开放任务、知识密集型问题等时，仅靠内部知识易出现不准确和幻觉现象。
复杂提示设计与泛化问题：早期增强LLMs的方法依赖复杂提示设计，且通过监督微调（SFT）将能力蒸馏到小模型时，会使模型记忆解决方案路径，限制泛化能力。
推理开销大：如基于蒙特卡罗树搜索（MCTS）的方法虽有前景，但推理开销大，实用性受限。

主要贡献

1. 创新框架设计：提出R1-Searcher框架，利用两阶段基于结果的RL方法，使LLMs在推理过程中自主调用外部搜索系统获取知识，这是与传统方法依赖内部知识的本质区别。

2. 强大性能表现：在多个多跳问答基准数据集上，R1-Searcher显著超越现有检索增强生成（RAG）方法，甚至优于闭源的GPT-4o-mini，如在HotpotQA数据集上使用Qwen-2.5-7B-Base模型时，比ReARTeR提升48.22% 。

3. 训练方式优势：仅依靠RL训练，无需蒸馏或SFT冷启动，对基础模型和指令微调模型均有效，且在跨领域数据集和在线搜索场景中表现出良好的泛化能力。

方法论精要

1. 核心算法/框架：采用两阶段基于结果的RL框架。第一阶段通过检索奖励和格式奖励，激励模型学会调用外部检索系统；第二阶段引入答案奖励，鼓励模型利用检索信息正确回答问题。训练算法基于Reinforce++并进行了修改，包括基于RAG的Rollout和基于检索掩码的损失计算。

2. 关键参数设计原理：在奖励设计方面，第一阶段检索奖励根据检索调用次数确定，若调用则奖励0.5，否则为0；格式奖励依据输出格式是否符合特定规范给予0.5或0的奖励。第二阶段格式奖励若格式错误则惩罚 -2，答案奖励使用预测答案与真实答案的F1分数计算。在训练过程中，设置学习率为2e-6，训练批次大小为256，Rollout批次大小为64等参数。

3. 创新性技术组合：将外部检索环境集成到训练过程中，让模型探索并学习有效利用检索解决问题。通过设计两阶段奖励机制，逐步引导模型提升检索和利用检索信息的能力，同时利用基于RAG的Rollout和基于检索掩码的损失计算，确保检索与推理过程的无缝结合，避免外部检索信息对模型训练的干扰。

4. 实验验证方式：训练数据从HotpotQA和2WikiMultiHopQA的训练集中选取，并根据回答问题所需的Rollout次数分为不同难度级别。使用四个多跳数据集（HotpotQA、2WikiMultiHopQA、Musique和Bamboogle）进行评估，其中Musique和Bamboogle用于评估模型的泛化能力。对比基线包括Naive Generation、Standard RAG、Branching Methods、Summarization-based Methods等多种方法，基于这些基线在相同任务上的表现来验证R1-Searcher的有效性。

实验洞察

在对R1-Searcher的研究中，实验结果为其性能与特性提供了有力支撑，具体从以下几个关键维度展开分析：

1. 性能优势：在多跳问答任务中，R1-Searcher表现卓越。以HotpotQA、2WikiMultiHopQA和Bamboogle数据集为例，基于LLM-as-Judge指标，使用Qwen-2.5-7B-Base作为骨干模型时，相比ReARTeR，在HotpotQA数据集上提升48.22%，2WikiMultiHopQA数据集上提升21.72%，Bamboogle数据集上提升4.0%。这表明R1-Searcher能有效引导模型在推理时精准调用检索，显著增强了模型在复杂问答任务中的表现。

2. 泛化能力验证：模型仅用8148个来自HotpotQA和2WikiMultiHopQA训练集的样本进行强化学习训练，不仅在这些训练相关的域内数据集上表现优异，在Musique和Bamboogle等域外公测数据集上同样表现出色，说明R1-Searcher能让模型有效学习检索并与推理融合，面对新测试数据集时能稳定发挥。在Bamboogle数据集的在线搜索测试中，R1-Searcher相比使用更大32B骨干模型的Search-o1，性能提升11.4%，展现出良好的在线搜索泛化能力。

训练相关因素分析

训练算法比较：对比GRPO和Reinforce++这两种强化学习算法，GRPO在生成文本长度、检索频率和域外公测数据集（如Bamboogle）表现上有优势，而Reinforce++在域内测试集（如HotpotQA和2Wiki）的学习效率更高。

奖励设计影响：研究不同答案奖励对强化学习训练的影响发现，F1分数作为答案奖励，相较于Exact Match（EM）和Cover Exact Match（CEM），能使模型生成更长响应，取得更好最终结果，平均性能比基于EM的奖励提升52.6%。同时，严格的格式奖励约束能有效避免模型训练中的异常输出和奖励作弊问题。