📖标题:Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning
🌐来源:arXiv, 2505.20561
🌟摘要
通过强化学习 (RL) 训练的大型语言模型 (LLM) 表现出强大的推理能力和紧急反射行为,例如回溯和纠错。然而,传统的马尔可夫 RL 将探索限制在训练阶段以学习最佳确定性策略,并且仅通过当前状态依赖于历史上下文。因此,尚不清楚反射推理是否会在马尔可夫 RL 训练期间出现,或者为什么它们在测试时有益。为了解决这个问题,我们在贝叶斯自适应 RL 框架内重铸了反射探索,该框架明确地优化了马尔可夫决策过程的后验分布下的预期回报。这种贝叶斯公式固有地通过信念更新激励奖励最大化开发和信息收集探索。我们的结果算法 BARL 指示 LLM 根据观察到的结果进行缝合和切换策略,为模型应该如何反思探索提供原则性的指导。合成推理和数学推理任务的经验结果表明,BARL 在测试时优于标准的马尔可夫 RL 方法,实现了卓越的令牌效率,提高了探索效率。我们的代码可在 https://github.com/shenao-zhang/BARL 获得。
🛎️文章简介
🔸研究问题:在测试阶段,有效的反思性推理为何如此重要,并在什么情况下能够通过常规的强化学习训练出有效的反思性行为?
🔸主要贡献:论文提出了一种基于贝叶斯自适应强化学习的框架(BARL),优化大语言模型(LLM)在推理任务中的测试时间表现,并自然引导反思性探索行为。
📝重点思路
🔸使用贝叶斯自适应MDP背景下的策略梯度,替换预定义MDP下的值为后验加权值。
🔸通过维持对MDP的不确定性,个体能够通过累积观测更新对MDP参数的信念,依赖历史信息进行决策。
🔸促进探索性反思行为,策略在保证能获取更多背景信息的同时,能够自适应切换策略以降低MDP的不确定性。
🔸在训练和测试阶段都保持奖励的最大化和探索的平衡,使得模型能够在测试过程中有效收集上下文信息。
🔎分析总结
🔸BARL在大多数基准测试中的准确性高于常规的马尔可夫强化学习基线,尤其是在需要有效探索的挑战性基准上表现出更大改进。
🔸即使在面临高复杂度的问题时,BARL仍然能以较低的计算开销实现更高的准确性,展现出其反思性探索的有效性。
🔸研究表明,反思性行为的有效性与采样策略的优化和上下文信息的收集显著相关,而不仅仅是出现频率。
🔸通过反思性的策略切换,BARL模型在应对训练与评估之间的分布偏移时表现出的通用性是其关键优势之一。
💡个人观点
论文通过引入贝叶斯框架来解决传统马尔可夫模型的局限性,使得模型在测试阶段不仅能高效利用上下文信息,还能自适应地进行策略反思,从而显著提升了推理质量和准确性。