TORL:解锁大模型推理新境界,强化学习与工具融合的创新变革

news2025/5/11 6:57:13

在大语言模型(LLMs)推理能力不断提升的当下,如何让模型更高效地解决复杂计算和推理任务成为关键。本文介绍的TORL(Tool-Integrated Reinforcement Learning)框架给出了全新方案。它通过强化学习让大模型自主运用计算工具,性能提升显著,为LLMs发展开辟新方向,一起来了解吧!

论文标题
TORL: Scaling Tool-Integrated RL
来源
arXiv:2503.23383v1 [cs.CL] 30 Mar 2025
https://arxiv.org/abs/2503.23383

开源代码:https://github.com/GAIR-NLP/ToRL

文章核心

研究背景

大语言模型(LLMs)借助强化学习(RL)展现出强大推理能力,同时工具集成推理(TIR)也在提升模型解决复杂计算任务方面发挥重要作用,但现有方法仍存在局限。

研究问题

  1. 多数现有工具集成推理(TIR)方法通过从更强模型提取轨迹进行监督微调(SFT),限制了模型探索最优工具使用策略的能力。
  2. 部分应用RL到SFT训练模型的工作,其工具集成在RL框架内的实现透明度低,难以深入理解。
  3. 传统语言模型推理在面对复杂计算、方程求解等精确计算任务时表现不佳。

主要贡献

  1. 创新训练框架:提出TORL框架,直接从基础模型进行强化学习,突破了先前监督微调的限制,让模型能通过广泛探索发现最优工具利用策略,这与基于预定模式改进的方法有本质区别。
  2. 显著性能提升:在Qwen2.5-Math基础模型实验中,TORL-7B在AIME24测试上准确率达到43.3%,比无工具集成的RL模型高14%,比现有最好的工具集成推理(TIR)模型高17%,在多个数学基准测试中均优于基线模型。
  3. 揭示认知行为:发现模型在训练过程中展现出多种新兴认知行为,如策略性工具调用、对无效代码生成的自我调节以及计算和分析推理之间的动态适应,这些行为无需明确指令,仅通过奖励驱动学习就能出现。
  4. 开源资源推动研究:开源了实现代码、数据集和模型,为研究社区进一步推进工具增强语言模型的发展提供了支持。

方法论精要

  1. 核心算法 / 框架:TORL 将工具集成推理(Tool Integrated Reasoning,TIR)与强化学习相结合。TIR 允许大语言模型在推理过程中融入可执行代码,通过迭代的推理与代码执行流程解决问题。在这个过程中,模型会构建推理轨迹,其中包含自然语言推理、生成的代码以及代码的执行结果。强化学习则直接基于基础语言模型展开,使模型在与环境的交互中不断探索,学习到最优的工具利用策略。

  1. 关键参数设计原理:超参数 c 在 TORL 中至关重要,它用于控制模型在单次响应生成时允许的最大工具调用次数。由于工具集成会引入 GPU 空闲时间,工具调用频率与训练速度呈反比,设置 c 值能够平衡训练效率和模型性能。当模型的工具调用次数达到 c 时,系统会忽略后续的代码执行请求,强制模型切换到纯文本推理模式。
  2. 创新性技术组合

  • 提示模板设计:运用特定的提示模板(如设定的用户与助手对话模板),引导模型自动输出包含代码块的推理内容。一旦检测到代码终止标识符,系统会暂停文本生成,执行最新的代码块,并将结构化的执行结果插入到上下文当中,推动模型后续的推理。
  • 执行环境选择与优化:选择 Sandbox Fusion 作为代码执行环境,它虽然存在一定的延迟,但具备稳定、准确和响应性良好的特点,且能提供隔离的执行环境,有效避免执行错误对整个训练过程的影响。同时,针对 Sandbox Fusion 生成的详细错误信息,只提取最后一行关键信息,减少上下文长度,保留关键错误提示
  • 奖励函数设计:采用基于规则的奖励函数,正确答案给予 1 的奖励,错误答案则为 -1。考虑到代码执行与问题解决准确性的关联,对于包含不可执行代码的响应,会额外给予 -0.5 的奖励惩罚,以此激励模型生成可执行且有助于解决问题的代码。
  1. 实验验证方式
  • 数据集构建:从 NuminaMATH、MATH 和 DeepScaleR 等来源收集奥林匹克级数学竞赛问题,经过初步筛选去除证明类问题和验证标准模糊的题目,得到 75,149 个可验证问题。再运用 LIMR(一种强化学习数据蒸馏技术),提取高质量样本并平衡难度分布,最终构建出包含 28,740 个问题的数据集用于后续实验。
  • 实验设置:使用 veRL 框架和 GRPO 算法开展 RL 实验,选择 Sandbox Fusion 作为代码解释器。设置滚动批次大小为 128,每个问题生成 16 个样本。为增强模型的探索能力,实验中省略 KL 损失并将温度设置为 1。以 Qwen - 2.5 - Math 系列模型作为基础模型,默认最大工具调用次数 c 为 1,且在默认实验中仅保留答案正确性奖励。
  • 评估基准:采用贪婪解码(temperature = 0)对所有模型进行评估,选择多个具有挑战性的数学基准测试,包括 AIME24、AIME25、MATH500、OlympiadBench 和 AMC23,将 TORL 模型与多种基线模型(如 Qwen2.5 - Math - 1.5B - Instruct、Qwen2.5 - Math - 1.5B - Instruct - TIR 等)进行对比,以此评估 TORL 模型的性能表现。

实验洞察

  1. 性能优势:在AIME24测试中,TORL-1.5B准确率达到26.7%,相比Qwen2.5-Math-1.5B-Instruct-TIR提升了13.3%;TORL-7B准确率为43.3% ,相比Qwen2.5-Math-7B-Instruct-TIR提升了10.0%。在多个数学基准测试的平均准确率上,TORL-1.5B达到48.5% ,超越Qwen2.5-Math-1.5B-Instruct-TIR(41.3%);TORL-7B达到62.1% ,相比其他同基础模型的开源模型有显著提升,绝对改进幅度达14.7%。
  2. 效率突破:研究发现增加最大工具调用次数c虽然能提升模型性能,但会降低训练速度。例如将c从1提高到2时,模型平均准确率提升约2% ,但训练速度明显下降,平均单步时间从237秒增加到288秒(在8*A800 GPU系统上测量)。
  3. 消融研究:分析关键设置对模型的影响时发现,引入代码可执行性奖励并没有提升模型性能。可能是因为对执行错误的惩罚使得模型为避免错误生成过于简单的代码,从而影响解决问题的能力。同时,模型在训练过程中,随着训练步数增加,使用代码解决问题的比例、正确执行代码的比例都在上升,且能识别和减少无效代码生成,验证了模型自主学习和优化工具使用策略的有效性

本文由AI辅助完成。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2341325.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Maven 依赖坐标与BOM统一管理

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…

华为OD机试真题——通过软盘拷贝文件(2025A卷:200分)Java/python/JavaScript/C++/C语言/GO六种最佳实现

2025 A卷 200分 题型 本文涵盖详细的问题分析、解题思路、代码实现、代码详解、测试用例以及综合分析; 并提供Java、python、JavaScript、C、C语言、GO六种语言的最佳实现方式! 本文收录于专栏:《2025华为OD真题目录全流程解析/备考攻略/经验…

【论文阅读25】-滑坡时间预测-PFTF

本文提出了一种前瞻性失稳时间预测方法(PFTF),可用于实时或拟实时预测滑坡、冰崩等地质灾害的失稳时间。该方法基于改进的反速度法(Inverse Velocity Method),通过多窗口平滑、迭代更新、以及自动识别加速起…

解决AWS中ELB的目标群组中出现不正常数

当如下图中不正常数>0且小于等于目标总数时,我们需要更改相应的配置,这是针对那些没有检查方式的实例,从而采取反向配置方式 1、切换到运行健康检查,然后进行编辑各个检查指标 2、编辑如下 3、切换到属性进行编辑如下

方案精读:华为智慧园区解决方案【附全文阅读】

随着数字化发展,园区面临转型需求。华为智慧园区解决方案应运而生,其基于物联网、大数据、云计算等技术,构建数字化使能平台,涵盖综合安防、人员与车辆管理、绿色能源、资产管理等多领域应用场景,解决传统园区在安全、效率、能耗等方面的痛点。通过实现系统互联、数据融合…

开源作业调度框架Quartz框架详细使用说明

Quartz框架详细使用说明 Quartz 是一个功能强大的开源作业调度框架,广泛用于在Java应用程序中执行定时任务。以下是Quartz框架的详细使用说明、完整代码示例、同类框架对比以及总结表格。 1. Quartz框架概述 特点: 灵活的调度:支持多种调度方…

C++算法(14):K路归并的最优解法

问题描述 给定K个按升序排列的数组,要求将它们合并为一个大的有序数组。例如,输入数组[[1,3,5], [2,4,6], [0,7]],合并后的结果应为[0,1,2,3,4,5,6,7]。 解决方案 思路分析 合并多个有序数组的高效方法是利用最小堆(优先队列&…

67 款 App 因违规收集个人信息被通报 隐私合规检测成重新上架门槛

4 月 22 日,国家网络与信息安全信息通报中心通报 67 款违法违规收集使用个人信息的移动应用,涉及教育、金融、政务等多个领域。此次通报是 2025 年个人信息保护专项行动的重要成果,依据《网络安全法》《个人信息保护法》等法律法规&#xff0…

django软件开发招聘数据分析与可视化系统设计与实现(源码+lw+部署文档+讲解),源码可白嫖!

摘要 时代在飞速进步,每个行业都在努力发展现在先进技术,通过这些先进的技术来提高自己的水平和优势,招聘信息管理系统当然不能排除在外。软件开发招聘数据分析与可视化系统是在实际应用和软件工程的开发原理之上,运用Python语言…

基于无障碍跳过广告-基于节点跳过广告

2025-04-22 一些广告的关闭是叉图标,获取到的信息也没什么特征,这种广告怎么跳过 用autojs无障碍的节点定位ui控件位置,点击

element-ui、element-plus表单resetFields()无效的坑

一、基本前提: 1、form组件上必须要有ref 2、form-item上必须要有prop属性 二、新增/编辑用一个el-dialog时,先新增再编辑没问题,先编辑再新增未清空 原因 在没有点新增或着编辑时,我的el-dialog弹出框里的内容是空白的&…

计算机视觉算法实现——救生衣穿戴状态智能识别

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​​​​ ​​​​​​​​​​​​ ​​​​ 一、救生衣穿戴状态识别领域概述 水上安全一直是全球关注的重大问题,据世界卫生组…

Science Robotics 新型层级化架构实现250个机器人智能组队,“单点故障”系统仍可稳定运行

近期,比利时布鲁塞尔自由大学博士生朱炜煦与所在团队提出了一种创新的机器人群体架构——“自组织神经系统”(SoNS,Self-organizing Nervous System)。 它通过模仿自然界中的生物神经系统的组织原理,为机器人群体建立了…

手写深拷贝函数

在 JavaScript 中,深拷贝是指创建一个对象或数组的完全独立副本,包括其嵌套的对象或数组。这意味着修改副本不会影响原始对象。 以下是手写一个通用的深拷贝函数的实现: 深拷贝函数实现 function deepClone(target, map new WeakMap()) {//…

React 性能优化三剑客实战:告别无效重渲染!

在 Vue 中我们可能依赖 Vuex computed 进行状态共享和性能优化,而在 React 里呢?不需要用 Redux,靠 useContext、memo、useMemo 三剑客就能构建高性能组件通信方案! 🧩 useContext 再回顾:状态共享不等于性…

APP动态交互原型实例|墨刀变量控制+条件判断教程

引言 不同行业的产品经理在绘制原型图时,拥有不同的呈现方式。对于第三方软件技术服务公司的产品经理来说,高保真动态交互原型不仅可以在开发前验证交互逻辑,还能为甲方客户带来更直观、真实的体验。 本文第三部分将分享一个实战案例&#…

色谱图QCPColorMap

一、QCPColorMap 概述 QCPColorMap 是 QCustomPlot 中用于绘制二维颜色图的类,可以将矩阵数据可视化为颜色图(热力图),支持自定义色标和插值方式。 二、主要属性 属性类型描述dataQCPColorMapData存储颜色图数据的对象interpol…

最新扣子(Coze)案例教程:飞书多维表格按条件筛选记录 + 读取分页Coze工作流,无限循环使用方法,手把手教学,完全免费教程

大家好,我是斜杠君。 👨‍💻 星球群里有同学想学习一下飞书多维表格的使用方法,关于如何通过按条件筛选飞书多维表格中的记录,以及如何使用分页解决最多一次只能读取500条的限制问题。 斜杠君今天就带大家一起搭建一…

Spring AI Alibaba-02-多轮对话记忆、持久化消息记录

Spring AI Alibaba-02-多轮对话记忆、持久化消息记录 Lison <dreamlison163.com>, v1.0.0, 2025.04.19 文章目录 Spring AI Alibaba-02-多轮对话记忆、持久化消息记录多轮对话对话持久-Redis 本次主要聚焦于多轮对话功能的实现&#xff0c;后续会逐步增加更多实用内容&…

联邦元学习实现个性化物联网的框架

随着数据安全和隐私保护相关法律法规的出台&#xff0c;需要直接在中央服务器上收集和处理数据的集中式解决方案&#xff0c;对于个性化物联网而言&#xff0c;训练各种特定领域场景的人工智能模型已变得不切实际。基于此&#xff0c;中山大学&#xff0c;南洋理工大学&#xf…