突破zero-RL 困境!LUFFY 如何借离线策略指引提升推理能力?

news2025/7/18 22:57:10

在大模型推理能力不断取得突破的今天,强化学习成为提升模型能力的关键手段。然而,现有zero-RL方法存在局限。论文提出的LUFFY框架,创新性地融合离线策略推理轨迹,在多个数学基准测试中表现卓越,为训练通用推理模型开辟新路径,快来一探究竟!

论文标题
LUFFY: Learning to Reason under Off-Policy Guidance
来源
arXiv:2504.14945v2 [cs.LG] 22 Apr 2025
https://arxiv.org/abs/2504.14945

代码

https://github.com/ElliottYan/LUFFY

文章核心

研究背景

大推理模型(LRMs)借助强化学习(RL)取得显著进展,能实现复杂推理和自我反思等行为,但现有零RL方法存在局限性。

研究问题

  1. zero-RL方法本质上是“在线策略(on-policy)”,学习局限于模型自身输出,难以突破初始能力边界,无法获取新的认知能力

  2. 简单的模仿学习虽引入外部指导,但容易导致模型陷入表面和僵化的推理模式,阻碍进一步学习,泛化能力受限。

  3. 离线策略学习在zero-RL中尚未得到充分探索,如何有效结合离线策略知识与在线策略学习,而非单纯模仿学习,是亟待解决的问题。

主要贡献

1. 提出LUFFY框架:将离线策略推理轨迹集成到zero-RL范式中,通过结合离线策略演示和在线策略滚动(rollouts),动态平衡模仿和探索,有效利用外部推理轨迹,提升模型推理能力。

2. 引入策略塑造技术:通过正则化重要性采样进行policy shape,避免混合策略训练中的表面和僵化的模仿,增强对低概率但关键动作的学习信号,鼓励模型在训练中持续探索,内化更深入、更具泛化性的推理行为。

3. 超越基线方法:在六个数学基准测试中,LUFFY平均得分比现有零RL方法高出7.0分以上;在分布外任务中优势超过6.2分,显著超越基于模仿的监督微调(SFT),在泛化能力上表现出色。

方法论精要

1. 核心算法/框架:基于传统零RL方法GRPO,引入离线策略推理轨迹,形成混合策略GRPO,并在此基础上通过正则化重要性采样进行policy shaping,构建LUFFY框架。

2. 关键参数设计原理:在GRPO中,通过采样N个解决方案的奖励分数估计优势,去除额外价值模型需求。在混合策略GRPO中,调整优势计算方式,将离线策略滚动结果纳入计算。策略塑造时,使用 f ( x ) = x / ( x + γ ) f(x)=x /(x+\gamma) f(x)=x/(x+γ) γ \gamma γ设为0.1)作为塑造函数,重新加权离线策略分布的梯度,增强对低概率动作的学习。

3. 创新性技术组合:将离线策略推理轨迹与在线策略滚动相结合,同时运用正则化重要性采样的策略塑造技术,以及去除在线策略clip的操作,提升模型学习效果。

4. 实验验证方式:使用包含94k提示的OpenR1 - Math - 220k子集作为训练集,经过筛选得到45k提示和离线策略推理轨迹。选择Qwen2.5 - Math - 7B等模型进行实验,对比Simple - RL、Oat - Zero等多种零RL方法,以及On - Policy RL和SFT等基线方法。在六个数学推理基准测试(如AIME 2024、AIME 2025等)和三个分布外基准测试(ARC - c、GPQA - diamond、MMLU - Pro)上进行评估,使用规则基奖励函数,通过Math - Verify验证。

实验洞察

1. 性能优势:在六个数学推理基准测试中,LUFFY平均得分49.6,比现有零RL方法平均提升7.0分以上。例如在AIME 2025测试集中,比其他零RL方法优势明显(如比SimpleRL - Zero高16.5分)。在分布外任务中,LUFFY平均得分57.8,比零RL方法有显著提升,且在MMLU - Pro基准测试上大幅超越On - Policy RL。

2. 训练动态分析: 在训练动态方面,LUFFY 展现出独特且高效的学习过程。起初,LUFFY 主要模仿离线策略轨迹,模型生成长度逐渐与离线策略推理轨迹对齐,这一阶段模仿主导,使得模型性能出现短暂下降,因为它需要适应外部指导。但随着训练推进,在线策略rollout逐渐发挥更大作用,模型在自身采样空间内进行独立探索,同时有效保留从离线策略演示中获得的经验。这种引导式探索为模型带来了比纯在线策略强化学习(RL)更大的优势,训练奖励不断增加,最终使 LUFFY 在模仿和探索之间达到动态平衡,实现更有效的离线策略学习。从训练熵值变化来看,LUFFY 在整个训练过程中始终保持比在线策略 RL 更高的熵值。在线策略 RL 的生成熵在约 200 步后迅速收敛至接近零,表明其策略趋于确定,探索潜力受限。而 LUFFY 较高的熵值使其能够持续探索那些虽不太确定但可能更优的策略,有助于发现和学习新的认知行为。在训练过程中,LUFFY 的熵值还会出现波动甚至偶尔增加,比如在 200 - 250 步之间,这反映了模型对低概率但关键动作(即关键令牌)的持续探索,使其能够跳出局部最优解,朝着更全局最优的方向收敛。

3. 消融研究:对LUFFY组件进行消融研究发现,策略塑造(policy shaping)和去除在线策略clip(NoClip)都对混合策略训练的最终性能有积极贡献。例如,同时使用这两个改进的模型比仅使用混合策略RL的模型在多个基准测试中有更高的平均得分(如在AIME 24、AIME 25等测试集中),而在没有离线策略指导下应用这些改进则无法提升性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2355998.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于Redis实现-附近商铺查询

基于Redis实现-附近查询 这个功能将使用到Redis中的GEO这种数据结构来实现。 1.GEO相关命令 GEO就是Geolocation的简写形式,代表地理坐标。Redis在3.2版本中加入到了对GEO的支持,允许存储地理坐标信息,帮助我们根据经纬度来检索数据&#…

【java WEB】恢复补充说明

Server 出现javax.servlet.http.HttpServlet", according to the project’s Dynamic Web Module facet version (3.0), was not found on the Java Build Path. 右键项目 > Properties > Project Facets。Dynamic Web Module facet version选4.0即可 还需要在serv…

安川机器人常见故障报警及解决办法

机器人权限设置 操作权限设置(如果密码不对,就证明密码被人修改) 编辑模式密码:无(一把钥匙,默认) 管理模式密码:999999999(9个9,二把钥匙) 安全模式密码:555555555(9个5,三把钥匙,权限最高,有的型号机器人,没有此模式,但最高密码为安全模式密码) 示教器…

tiktok web X-Bogus X-Gnarly 分析

声明 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 逆向过程 部分python代码 import req…

kes监控组件安装

环境准备 创建监控用户 useradd -m -s /bin/bash -d /home/kmonitor kmonitor passwd k_monitor usermod –a –G kingbase kmonitor 检查java版本 java –version [kmonitorkingbase node_exporter]$ java -version java version "1.8.0_341" Java(TM) SE …

React-Native Android 多行被截断

1. 问题描述: 如图所示: 2. 问题解决灵感: 使用相同的react-native代码,运行在两个APP(demo 和 project)上。demo 展示正常,project 展示不正常。 对两个页面截图,对比如下。 得出…

深度学习【Logistic回归模型】

回归和分类 回归问题得到的结果都是连续的,比如通过学习时间预测成绩 分类问题是将数据分成几类,比如根据邮件信息将邮件分成垃圾邮件和有效邮件两类。 相比于基础的线性回归其实就是增加了一个sigmod函数。 代码 import matplotlib.pyplot as plt i…

数据科学与计算

1.设计目标与安装 Seaborn 是一个建立在 Matplotlib 基础之上的 Python 数据可视化库,专注于绘制各种统计图形,以便更轻松地呈现和理解数据。Seaborn 的设计目标是简化统计数据可视化的过程,提供高级接口和美观的默认主题,使得用…

怎样给MP3音频重命名?是时候管理下电脑中的音频文件名了

在处理大量音频文件时,给这些文件起一个有意义的名字可以帮助我们更高效地管理和查找所需的内容。通过使用专业的文件重命名工具如简鹿文件批量重命名工具,可以极大地简化这一过程。本文将详细介绍如何利用该工具对 MP3 音频文件进行重命名。 步骤一&am…

快速上手非关系型数据库-MongoDB

简介 MongoDB 是一个基于文档的 NoSQL 数据库,由 MongoDB Inc. 开发。 NoSQL,指的是非关系型的数据库。NoSQL有时也称作Not Only SQL的缩写,是对不同于传统的关系型数据库的数据库管理系统的统称。 MongoDB 的设计理念是为了应对大数据量、…

【C++学习笔记】深入理解虚函数和多态

文章目录 1. 基本概念1.1 虚函数1.2 虚函数表1.3 虚函数表指针1.4 虚函数表在支持多态方面的工作原理 2. 类对象在内存中的布局参考 1. 基本概念 1.1 虚函数 类的成员函数,并不占用类对象的内存空间。 类中有虚函数,编译器会向类中插入一个看不见的成…

Node.js CSRF 保护指南:示例及启用方法

解释 CSRF 跨站请求伪造 (CSRF/XSRF) 是一种利用用户权限劫持会话的攻击。这种攻击策略允许攻击者通过诱骗用户以攻击者的名义提交恶意请求,从而绕过我们的安全措施。 CSRF 攻击之所以可能发生,是因为两个原因。首先,CSRF 攻击利用了用户无法辨别看似合法的 HTML 元素是否…

【Linux】VSCode用法

描述 部分图片和经验来源于网络,若有侵权麻烦联系我删除,主要是做笔记的时候忘记写来源了,做完笔记很久才写博客。 专栏目录:记录自己的嵌入式学习之路-CSDN博客 目录 1 安装环境及运行C/C 1.1 安装及配置步骤 1.2 运…

来聊聊JVM中安全点的概念

文章目录 写在文章开头详解safepoint基本概念什么是安全点?为什么需要安全点JVM如何让线程跑到最近的安全点线程什么时候需要进入安全点JVM如何保证线程高效进入安全点如何设置安全点用一次GC解释基于安全点的STW实践-基于主线程休眠了解安全点的工作过程代码示例基于日志印证…

Nginx — http、server、location模块下配置相同策略优先级问题

一、配置优先级简述 在 Nginx 中,http、server、location 模块下配置相同策略时是存在优先级的,一般遵循 “范围越小,优先级越高” 的原则,下面为你详细介绍: 1. 配置继承关系 http 块:作为全局配置块&…

线性代数—向量与矩阵的范数(Norm)

参考链接: 范数(Norm)——定义、原理、分类、作用与应用 - 知乎 带你秒懂向量与矩阵的范数(Norm)_矩阵norm-CSDN博客 什么是范数(norm)?以及L1,L2范数的简单介绍_l1 norm-CSDN博客 范数(Norm…

【业务领域】电脑主板芯片电路结构

前言 由前几期视频合集(零基础自学计算机故障排除—7天了解计算机开机过程),讲解了POST的主板软启动过程;有不少网友留言、私信来问各种不开机的故障,但大多网友没能能过我们的这合集视频,很好的理清思路,那这样的情况…

pandas读取Excel数据(.xlsx和.xls)到treeview

对于.xls文件,xlrd可能更合适,但需要注意新版本的xlrd可能不支持xlsx,不过用户可能同时需要处理两种格式,所以可能需要结合openpyxl和xlrd?或者直接用pandas,因为它内部会处理这些依赖。 然后,…

JVM——垃圾收集策略

GC的基本问题 什么是GC? GC 是 garbage collection 的缩写,意思是垃圾回收——把内存(特别是堆内存)中不再使用的空间释放掉;清理不再使用的对象。 为什么要GC? 堆内存是各个线程共享的空间&#xff0c…

马克·雷伯特:用算法让机器人飞奔的人

名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 马克雷伯特:用算法让机器人飞奔的人 一、天才的起点 在机器人领域,有一个名字如雷贯耳——马克雷伯特(Marc Raibert)。作为波士顿动力公司(Boston…