【LLM】RL基本概念
On-policy Off-policy在强化学习Reinforcement Learning, RL中理解 On-policy同策略和 Off-policy异策略的核心在于区分两个概念行为策略 (Behavior Policy, 记为μ\muμ)智能体在环境中实际执行动作、收集数据的策略。目标策略 (Target Policy, 记为π\piπ)智能体正在学习、评估和优化的策略。On-policy 和 Off-policy 的根本区别就在于这两个策略是否是同一个。1. On-policy (同策略)定义行为策略和目标策略是同一个策略(μπ\mu \piμπ)。智能体在环境中“边做边学”它只能利用当前版本的策略所收集到的数据来更新自己。一旦策略更新了之前收集的旧数据就作废了必须用新策略重新与环境交互收集数据。核心特点稳定性高因为你评估和优化的就是你正在执行的策略方差通常较小训练比较稳定。样本效率低 (Sample Inefficient)每次更新都需要重新采样不能重复利用过去的数据。这在与环境交互成本很高的情况下是个致命缺点。经典算法SARSA、REINFORCE、A2C、PPO (Proximal Policy Optimization)。前沿应用场景在大型语言模型 (LLM) 和多模态大模型 (VLM) 的对齐阶段如 RLHFPPO 是绝对的主流。因为我们需要模型对其当前生成的回答概率分布进行优势函数 (Advantage) 估计旧模型生成的文本分布与当前模型差异太大通常难以直接复用尽管目前也有一些 off-policy 改进的尝试。2. Off-policy (异策略)定义行为策略和目标策略不是同一个策略(μ≠π\mu \neq \piμπ)。智能体可以“旁观者清”或“温故知新”。它在学习目标策略π\piπ的同时可以利用由其他策略μ\muμ比如过去的自己、随机探索策略、甚至是人类专家演示收集到的历史数据。核心特点样本效率高 (Sample Efficient)可以引入经验回放池 (Experience Replay Buffer)把过去所有交互的数据存起来反复学习极大节省了与环境交互的成本。收敛难度大因为是用分布不同的数据来评估当前的策略会引入分布偏移 (Distribution Shift)。在结合函数近似如神经网络和自举 (Bootstrapping) 时容易出现著名的强化学习“死亡三角 (Deadly Triad)”导致 Q 值过高估计或训练崩溃。经典算法Q-Learning、DQN、DDPG、SAC (Soft Actor-Critic)。前沿应用场景在 Vision-Language-Action (VLA) 模型和具身智能机器人控制领域由于让实体机器人去真实世界“试错”收集数据的成本极高且有物理损坏风险研究重点通常高度依赖 Off-policy 甚至Offline RL (离线强化学习)。我们需要模型能够从海量的人类遥操演示 (Teleoperation) 数据或历史混合数据中直接学习最优策略而无需实时在环境中执行以收集新数据。核心对比总结特性On-policy (同策略)Off-policy (异策略)策略关系行为策略 目标策略行为策略≠\neq目标策略数据利用只能用当前策略生成的新数据可以复用历史数据、专家数据经验回放池❌ 通常不需要 / 不能用✅ 必须使用 (Replay Buffer)样本效率极低数据用完即弃极高数据反复压榨训练稳定性较高直接优化当前目标较低存在分布偏移、高估风险公式示例Q(s,a)←rγQ(s′,a′)Q(s, a) \leftarrow r \gamma Q(s, a)Q(s,a)←rγQ(s′,a′)(动作a′aa′必须由当前π\piπ采样)Q(s,a)←rγmaxa′Q(s′,a′)Q(s, a) \leftarrow r \gamma \max_{a} Q(s, a)Q(s,a)←rγmaxa′Q(s′,a′)(直接取最优估计无关实际怎么走)理解这两者的区别对于在不同的工程落地场景中选择合适的 RL 范式至关重要。如果在虚拟环境如仿真器、文本生成中交互成本低通常首选 On-policy 求稳如果在物理世界或真实业务中试错成本极高则必须攻克 Off-policy 带来的不稳定性。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2614552.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!