R1-Searcher:用强化学习解锁大语言模型检索新能力!

news2025/5/15 4:18:31

R1-Searcher:用强化学习解锁大语言模型检索新能力!

大语言模型(LLMs)发展迅猛,却常因依赖内部知识而在复杂问题上“栽跟头”。今天解读的论文提出R1-Searcher框架,通过强化学习提升LLMs检索能力。它表现超亮眼,在多数据集上打败强基线模型,还能拓展到在线搜索场景,快来一探究竟!

论文标题
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning
来源
arXiv:2503.05592v2 [cs.AI] 18 Mar 2025
https://arxiv.org/abs/2503.05592
PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

在自然语言处理领域,大型推理模型(LRMs)近年来发展迅猛。像OpenAI-o1、Deepseek-R1等模型,借助强化学习(RL)大幅提升了大语言模型(LLMs)的推理能力,在数学、编程等复杂任务上表现亮眼。然而,这些模型存在明显短板。它们过度依赖内部知识储备,面对知识密集型、时效性强的问题,以及本地数据库中的隐私信息时,常常力不从心,容易出现答案不准确甚至凭空捏造的情况。虽然已有研究通过检索增强生成(RAG)等技术为LLMs引入外部信息,但现有方法或是依赖复杂提示设计,泛化性欠佳;或是推理开销大,难以广泛应用。因此,探索新的有效途径来提升LLMs的能力迫在眉睫。

研究问题

  1. 依赖内部知识:现有模型在面对开放任务、知识密集型问题等时,仅靠内部知识易出现不准确和幻觉现象。

  2. 复杂提示设计与泛化问题:早期增强LLMs的方法依赖复杂提示设计,且通过监督微调(SFT)将能力蒸馏到小模型时,会使模型记忆解决方案路径,限制泛化能力。

  3. 推理开销大:如基于蒙特卡罗树搜索(MCTS)的方法虽有前景,但推理开销大,实用性受限。

主要贡献

1. 创新框架设计:提出R1-Searcher框架,利用两阶段基于结果的RL方法,使LLMs在推理过程中自主调用外部搜索系统获取知识,这是与传统方法依赖内部知识的本质区别。

2. 强大性能表现:在多个多跳问答基准数据集上,R1-Searcher显著超越现有检索增强生成(RAG)方法,甚至优于闭源的GPT-4o-mini,如在HotpotQA数据集上使用Qwen-2.5-7B-Base模型时,比ReARTeR提升48.22% 。

3. 训练方式优势:仅依靠RL训练,无需蒸馏或SFT冷启动,对基础模型和指令微调模型均有效,且在跨领域数据集和在线搜索场景中表现出良好的泛化能力。

方法论精要

1. 核心算法/框架:采用两阶段基于结果的RL框架。第一阶段通过检索奖励和格式奖励,激励模型学会调用外部检索系统;第二阶段引入答案奖励,鼓励模型利用检索信息正确回答问题。训练算法基于Reinforce++并进行了修改,包括基于RAG的Rollout和基于检索掩码的损失计算。

2. 关键参数设计原理:在奖励设计方面,第一阶段检索奖励根据检索调用次数确定,若调用则奖励0.5,否则为0;格式奖励依据输出格式是否符合特定规范给予0.5或0的奖励。第二阶段格式奖励若格式错误则惩罚 -2,答案奖励使用预测答案与真实答案的F1分数计算。在训练过程中,设置学习率为2e-6,训练批次大小为256,Rollout批次大小为64等参数。

3. 创新性技术组合:将外部检索环境集成到训练过程中,让模型探索并学习有效利用检索解决问题。通过设计两阶段奖励机制,逐步引导模型提升检索和利用检索信息的能力,同时利用基于RAG的Rollout和基于检索掩码的损失计算,确保检索与推理过程的无缝结合,避免外部检索信息对模型训练的干扰。

4. 实验验证方式:训练数据从HotpotQA和2WikiMultiHopQA的训练集中选取,并根据回答问题所需的Rollout次数分为不同难度级别。使用四个多跳数据集(HotpotQA、2WikiMultiHopQA、Musique和Bamboogle)进行评估,其中Musique和Bamboogle用于评估模型的泛化能力。对比基线包括Naive Generation、Standard RAG、Branching Methods、Summarization-based Methods等多种方法,基于这些基线在相同任务上的表现来验证R1-Searcher的有效性。

实验洞察

在对R1-Searcher的研究中,实验结果为其性能与特性提供了有力支撑,具体从以下几个关键维度展开分析:

1. 性能优势:在多跳问答任务中,R1-Searcher表现卓越。以HotpotQA、2WikiMultiHopQA和Bamboogle数据集为例,基于LLM-as-Judge指标,使用Qwen-2.5-7B-Base作为骨干模型时,相比ReARTeR,在HotpotQA数据集上提升48.22%,2WikiMultiHopQA数据集上提升21.72%,Bamboogle数据集上提升4.0%。这表明R1-Searcher能有效引导模型在推理时精准调用检索,显著增强了模型在复杂问答任务中的表现。

2. 泛化能力验证:模型仅用8148个来自HotpotQA和2WikiMultiHopQA训练集的样本进行强化学习训练,不仅在这些训练相关的域内数据集上表现优异,在Musique和Bamboogle等域外公测数据集上同样表现出色,说明R1-Searcher能让模型有效学习检索并与推理融合,面对新测试数据集时能稳定发挥。在Bamboogle数据集的在线搜索测试中,R1-Searcher相比使用更大32B骨干模型的Search-o1,性能提升11.4%,展现出良好的在线搜索泛化能力。

训练相关因素分析

  • 训练算法比较:对比GRPO和Reinforce++这两种强化学习算法,GRPO在生成文本长度、检索频率和域外公测数据集(如Bamboogle)表现上有优势,而Reinforce++在域内测试集(如HotpotQA和2Wiki)的学习效率更高。

  • 奖励设计影响:研究不同答案奖励对强化学习训练的影响发现,F1分数作为答案奖励,相较于Exact Match(EM)和Cover Exact Match(CEM),能使模型生成更长响应,取得更好最终结果,平均性能比基于EM的奖励提升52.6%。同时,严格的格式奖励约束能有效避免模型训练中的异常输出和奖励作弊问题。

  • 训练数据作用:构建不同难度和多样性的训练数据集实验表明,更具挑战性的问题能促使模型更多地进行检索,提升推理能力多样的训练数据可增加模型检索次数和响应长度,提升测试集得分,而单一数据集可能导致过拟合,影响模型性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2374754.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

第一篇 世界观安全

目录 STRIDE模型 五大原则 一黑白名单 二最小权限原则 三纵深防御原则 四数据和代码分离 五不可预测原则 安全的问题本质是信任问题。 并且安全是一个持续的过程。 安全的三要素:机密性,完整性(可以采用数字签名)&#x…

mac M2能安装的虚拟机和linux系统系统

目前网上的资料大多错误,能支持M2的很少。 推荐安装的改造过的centos7也无法进行yum操作,建议安装centos8 VMware Fusion下载地址: https://pan.baidu.com/s/14v3Dy83nuLr2xOy_qf0Jvw 提取码: jri4 centos8下载地址: https://…

无偿帮写毕业论文

以下教程教你如何利用相关网站和AI免费帮你写一个毕业论文。毕竟毕业论文只要过就行,脱产学习这么多年,终于熬出头了,完成毕设后有空就去多看看亲人好友,祝好! 一、找一个论文模板(最好是overleaf) 废话不多说&#…

智能网联汽车“内外协同、虚实共生”的通信生态

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 钝感力的“钝”,不是木讷、迟钝,而是直面困境的韧劲和耐力,是面对外界…

Linux操作系统从入门到实战(六)Linux开发工具(上)详细介绍什么是软件包管理器,Linux下如何进行软件和软件包的安装、升级与卸载

Linux操作系统从入门到实战(六)Linux开发工具(上)详细介绍什么是软件包管理器,Linux下如何进行软件和软件包的安装、升级与卸载 前言一、 软件包管理器1.1 传统安装方式的麻烦:从源代码说起1.2 软件包&…

物流无人机自动化装卸技术解析!

一、自动化装卸技术模块的技术难点 1. 货物多样性适配 物流场景中货物包装类型、尺寸、材质差异大,如农产品、医疗物资、工业设备等,要求装卸模块具备高度柔性化设计。例如,单元货物需视觉识别系统进行单个抓取,而整托货物需大…

IOT藍牙探測 C2 架構:社會工程/節點分離防追尋

BMC 地址:https://github.com/MartinxMax/bmc/releases/tag/V1.5 藍牙 MAC 偵測節點的物聯網分散式 C2 架構,可與 S-Cluster 交互。 場景 A:潛伏偵測 駭客組織會將 BMC 裝置秘密部署在目標建築物周圍(例如牆外、通風口或垃圾間等隱蔽地點&…

FreeRTOS学习记录(变量命名规则全解、文件介绍)

目录 FreeRTOS 变量命名规则详解​ ​一、变量命名前缀规则​ (一)数据类型相关前缀​ (二)功能模块相关前缀​ (三)宏定义 二、变量命名与文件的关系​ (一)核心源文件中的变…

Qt 中 QWidget涉及的常用核心属性介绍

欢迎来到干货小仓库 一匹真正的好马,即使在鞭子的影子下,也能飞奔 1.enabled API说明isEnabled()获取到控件的可用状态setEnabled()设置控件是否可使用.true:可用,false:禁用 禁用:指该控件不能接收任何用…

Open CASCADE学习|由大量Edge构建闭合Wire:有序与无序处理的完整解析

在CAD建模中,构建闭合的Wire(线框)是拓扑结构生成的基础操作。OpenCascade(OCCT)作为强大的几何建模库,支持从离散的Edge(边)构建Wire,但在实际应用中,边的有序性直接影响构建的成功率。本文将详细探讨有序与无序两种场景下的实现方法,并提供完整代码示例。 一、有序…

linux 开发小技巧之git增加指令别名

众所周知,git的指令执行时都得敲好几个字符才能补充上来,比如常用的git status,是不是要将全部的字符一个个地在键盘敲上来,有没有更懒惰点办法,可以将经常用到的git命令通过其他的别名的方式填充,比如刚刚…

一文读懂如何使用MCP创建服务器

如果你对MCP(模型上下文协议)一窍不通,在阅读本篇文章之前(在获得对MCP深度认识之前),你可以理解为学习MCP就是在学习一个python工具库mcp,类似于其它python工具库一样,如numpy、sys…

Python Day23 学习

继续SHAP图绘制的学习 1. SHAP特征重要性条形图 特征重要性条形图(Feature Importance Bar Plot)是 SHAP 提供的一种全局解释工具,用于展示模型中各个特征对预测结果的重要性。以下是详细解释: 图的含义 - 横轴:表示…

VS Code 重磅更新:全新 MCP 服务器发现中心上线

目前各种 MCP 客户端层出不穷,但是安装 MCP 服务却格外繁琐,尤其 VS Code 中无界面化的 MCP 服务配置方式,效率较低。 Copilot MCP 是一个 VS Code 插件,在今天发布的新版本中,插件支持了自动发现与安装开源 MCP 服务…

一、网络基础

IPv4:32位二进制 -- 点分十进制标识 192.168.1.1(连续的32位,为了好看方便每8位一段) IPv6:128位二进制 IP(Internet协议) 洪泛:除流量进入接口外的所有接口的复制 OSI模型&#…

基于HTML+JavaScript+CSS实现教学网站

摘要 21世纪是信息化的时代,信息化物品不断地涌入我们的生活。同时,教育行业也产生了重大变革。传统的身心教授的模式,正在被替代。互联网模式的教育开辟了一片新的热土。 这算是对教育行业的一次重大挑战。截至目前,众多教育行…

告别卡顿,图片查看界的“速度与激情”

嘿,小伙伴们!今天电脑天空给大家介绍一款超好用的图片查看神器——ImageGlass!这可不是普通的图片查看软件哦,它简直就是图片界的“全能王”。首先,它能打开的图片格式多到让你眼花缭乱,什么PNG、JPEG、GIF…

C++ - 类和对象 #日期类的实现

文章目录 前言 一、导言 二、构造 三、比较大小 1、实现大于 2、等于 3、大于等于 4、小于 5、小于等于 6、不等于 二、加减 1、加与加等 2、减与减等 3、、-- 4、日期-日期 三、流提取、流插入 1、流插入 2、流提取 四、日期类所有代码汇总 总结 前言 路…

Redis 8.0携新功能,重新开源

01 引言 Redis从7.4版本起,将开源许可证改成 RSALv2(Redis 源代码可用许可证)与 SSPLv1(服务器端公共许可证)的双重授权策略。简单来说,就是不能随意商用。为了抵制Redis,Redis的替代品Valkey、…

从MCU到SoC的开发思维转变

目录 1、硬件设计 2、软件开发 3、调试与测试 4、电源管理 微控制器单元(MCU)和系统级芯片(SoC)是嵌入式开发中最常见的两种处理器类型。MCU以其简单、低功耗的特点,广泛应用于特定控制任务;而SoC凭借强…