强化学习入门ⅡCS188 Note10 学习笔记

news2026/5/24 7:37:02

更好的阅读体验Approximate Q-learningQ-learning虽然很有优势但是缺乏了泛化能力。当pacman学习了figure1中的困境后智能体是不会意识到figure2,figure3中的情景和figure1中的困境基本一样所以说Q-Learning很有局限性这时候该算法就不再记下具体状态而是记住状态特征将状态表示为特征向量比如pacman的特征向量就可以编码为离最近ghost的距离离最近food的距离ghost的数量pacman是否被困住了0 or 1Q函数建模为特征的线性组合Q ( s , a ) w 1 f 1 ( s , a ) w 2 f 2 ( s , a ) ⋯ w n f n ( s , a ) w ⃗ ⋅ f ⃗ ( s , a ) \begin{align*} Q(s,a) w_1 f_1(s,a) w_2 f_2(s,a) \cdots w_n f_n(s,a) \vec{w}\cdot\vec{f}(s,a) \end{align*}Q(s,a)w1f1(s,a)w2f2(s,a)⋯wnfn(s,a)w⋅f(s,a)每一步需要计算difference,并且更新权重difference [ R ( s , a , s ′ ) γ max ⁡ a ′ Q ( s ′ , a ′ ) ] − Q ( s , a ) \begin{align*} \text{difference} \big[ R(s,a,s) \gamma \max_{a} Q(s,a) \big] - Q(s,a) \end{align*}difference[R(s,a,s′)γa′maxQ(s′,a′)]−Q(s,a)w i ← w i α ⋅ d i f f e r e n c e ⋅ f i ( s , a ) \begin{align*} w_i \leftarrow w_i \alpha \cdot \mathrm{difference} \cdot f_i(s,a) \end{align*}wi←wiα⋅difference⋅fi(s,a)这样一来我们的内存使用效率就极高泛化能力也具备了。在这个过程中相似状态会得到相似的Q值即使没有被访问过得状态也能合理估计Exploration vs. Exploitation在强化学习中智能体agent需要在以下两者之间做出权衡Exploitation利用按照当前已知的最优策略行动以最大化即时奖励。Exploration探索尝试未知的动作以发现可能更优的策略从而获得长期收益。如果只利用不探索可能陷入局部最优如果只探索不利用则无法积累有效经验。因此如何在两者之间取得平衡是强化学习的核心问题之一ε-Greedy Policies一种很基础来强迫智能体做出Exploration的方法给定一个0 ε 1有 ε 的概率随机选择动作( Exploration )有1- ε 的概率来选择当前最优动作( Exploitation )非常的简单且有效但是缺点也十分明显在已经学习到最佳动作后仍然有很大的概率来做出随机行为。但是如果ε太小了的话又会导致探索不足学习速度过慢。一种简单解决问题的办法就是使ε随时间衰减Exploration Functions这是一种更智能的选择这种方式通过在Q值更新中引入探索奖励Q值迭代表达式更新变为Q ( s , a ) ← ( 1 − α ) Q ( s , a ) α [ R ( s , a , s ′ ) γ max ⁡ a ′ f ( s ′ , a ′ ) ] \begin{align*} Q(s,a) \leftarrow (1-\alpha)Q(s,a) \alpha\big[ R(s,a,s) \gamma \max_{a} f(s,a) \big] \end{align*}Q(s,a)←(1−α)Q(s,a)α[R(s,a,s′)γa′maxf(s′,a′)]其中f( s, a )为探索函数常见形式为f ( s , a ) Q ( s , a ) k N ( s , a ) \begin{align*} f(s,a) Q(s,a) \frac{k}{N(s,a)} \end{align*}f(s,a)Q(s,a)N(s,a)k其中N( s, a )表示状态-动作对( s, a )被访问的次数。k表示偏好系数即控制探索( Exploration )的强度RL SummaryModel-based Learning基于模型的学习在Note9中有详细介绍:先估计环境的转移函数T和奖励函数R再用这些估计值进行规划如 Value Iteration/ Policy Iteration)Model-free Learning无模型学习在Note9中有详细介绍不显式估计 TT 和 RR直接学习值函数或策略方法描述特点Direct Evaluation根据策略π ππ统计每个状态的累计奖励简单但收敛慢忽略状态间转移信息Temporal Difference Learning (TD Learning)用指数移动平均更新值函数在线学习收敛更快适合 on-policyQ-Learning用 Q 值迭代直接学习最优策略Off-policy可容忍次优行为Approximate Q-Learning用特征表示状态泛化能力强适合大规模状态空间On-policy vs. Off-policy类型定义例子On-policy学习当前策略下的值函数Direct Evaluation, TD LearningOff-policy学习最优策略即使当前行为是次优的Q-LearningRegret还有一个重要概念叫做Regret我们至今不知道如何评判一个智能体强化学习性能的好坏无法评判智能体学习到了哪一步不知道智能体在Exploration vs. Exploitation之间取舍是否理智我们就引入了RegretR e g r e t 最优策略累计奖励 − 算法实际累计奖励 Regret最优策略累计奖励−算法实际累计奖励Regret最优策略累计奖励−算法实际累计奖励低 regret 表示算法在早期也能做出较好的决策

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2640173.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！