RL学习记录（更新中）

news2026/4/14 17:05:10

主要课程来源小电视赵老师课程主要针对强化学习原理实践和编程较少目录前言第一章基础概念第二章贝尔曼公式第三章贝尔曼最优公式第四章值迭代与策略迭代前言贝尔曼公式一句话总结它就是用等式描述了所有状态状态价值函数之间的关系。强化学习最终目标求解最优策略behavior policy:生成经验数据的target policy:目标策略如果两者一样则是on-policy如果可以不同则是off-policy第一章基础概念强化学习基础框架智能体与环境交互通过获得的奖励来优化策略state:agent相对于环境的一个状态state space:state的集合action:对于每个state都有五种运动方法policy:告诉agent在一个状态应该采取哪个行动π一个条件概率它指定了任何一个状态下任何一个action的概率是多少reward:是一个实数agent 采取行动之后会得到这样一个数如果是正数代表行为是鼓励的如果是负数代表行为是不鼓励的。如果reward设为0没有惩罚一定程度上是会鼓励trajectory:一个状态行动奖励链return针对trajectory而言把沿着这个策略所有奖励全加起来。discounted return:每个过程的奖励乘上一个小于1的数episode:一个完整的试验马尔可夫决策过程MDP集合有状态集合行动集合奖励集合概率分布状态转移概率从一个状态跳到另一个状态的概率奖励概率从一个状态采取一个行动得到r的概率policy:策略会告诉我在状态s采取行动a的概率是多少无记忆性概率只受上一个状态到目前状态的影响第二章贝尔曼公式重点关注state value的概念贝尔曼公式state value状态价值函数从一个状态出发按照当前策略可获得的总奖励的期望。VπsEGt | StsGt是折扣奖励状态价值函数其实是π和s的函数贝尔曼公式策略评估给定一个策略列出贝尔曼公式并求解状态价值函数。action value动作价值函数:从一个状态出发并且选择了一个行动后获得的总奖励的期望是s和a的函数定义式和状态价值函数的关系求解贝尔曼公式方法迭代法一般先给定一个初值第三章贝尔曼最优公式重点关注最优状态价值函数最优策略贝尔曼最优公式BOE最优策略对于所有的状态这个策略的状态价值函数都比其他策略高这个策略被称为最优策略贝尔曼最优公式求解贝尔曼最优公式vf(v) f是一个压缩映射函数给定一个初始值迭代出来v最优策略最优策略由什么来决定r γ 以及模型γ比较大会比较重视未来的reward最优状态价值函数是唯一的最优策略不一定是唯一的。第四章值迭代与策略迭代重点关注值迭代算法策略迭代算法截断策略迭代算法值迭代算法分两步第一部分是给定Vk求qk进而得到πk1最优的a*进而求解Vk1maxiqk伪代码及伪代码总结判断收敛标准当 | Vk-Vk1 | 是一个很小的数的时候迭代停止策略迭代先给定一个π0然后求Vπ0贝尔曼公式然后迭代法求然后求π1这样迭代下去。伪代码截断策略迭代算法求解vπk时迭代有限次数值迭代和策略迭代是两种特殊情况

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2415777.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！