美团:融合先验与稀疏采样的自适应基线
标题V0.5Generalist Value Model as a Prior for Sparse RL Rollouts来源arXiv, 2603.10848v1摘要在具有可验证奖励的强化学习RLVR中构建稳健的优势基线对于策略梯度至关重要可以有效地引导策略模型强化期望的行为。最近的研究引入了通才价值模型如V0它通过在上下文中显式编码模型能力来实现预训练的价值估计消除了与策略模型一起同步更新价值模型的需要。在本文中我们提出了V0.5它自适应地将这种价值模型预测的基线充当先验与从稀疏部署中得出的经验均值融合在一起。这构建了一个稳健的基线可以平衡计算效率和极低的方差。具体来说我们引入了实时统计测试和动态预算分配。这平衡了稀疏采样引起的高方差与价值模型先验固有的系统偏差或幻觉。通过构建假设测试来实时评估先验的可靠性系统根据需要动态分配额外的推出预算。这种机制最小化了基线估计器的均方误差MSE保证了稳定的策略梯度即使在组大小为4的极端稀疏情况下也是如此。对六个数学推理基准的广泛评估表明V0.5显着优于GRPO和DAPO实现了更快的收敛和超过10%的性能改进。️文章简介研究问题如何在强化学习可验证奖励训练中既利用通用价值模型降低稀疏采样的高方差又避免其幻觉带来的系统性偏差主要贡献论文提出V0.5框架通过统计检验动态融合价值先验与稀疏rollout实现了极低方差且无偏的优势估计。重点思路提出经验收缩融合机制将通用价值模型的预测作为先验与少量在线rollout的经验均值进行加权组合从理论上分解并最小化基线估计的均方误差。设计实时统计假设检验通过比较观测差异与理论噪声边界动态判断价值先验是否可靠若检测到严重冲突则自动隔离先验以防幻觉污染。引入基于单步前瞻的序列预算分配策略根据实时评估的基线不确定性动态决定停止采样或增加rollout数量实现计算资源的最优按需调度。分析总结在六个数学推理基准测试中V0.5相比GRPO和DAPO收敛速度更快最终准确率提升超过10%证明了其在稀疏采样下的高效性。实验显示该方法能维持更低且更稳定的策略梯度范数有效抑制了因稀疏采样导致的梯度方差爆炸问题保障了训练稳定性。即使在每组仅4个rollout的极端稀疏条件下模型仍能保持较高的策略熵避免了过早陷入局部最优展现了强大的探索能力。个人观点论文将静态的通用价值模型转化为动态的统计先验而非传统的同步训练评论家。用假设检验识别“幻觉”用动态预算解决“噪声”。附录
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2442000.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!