模仿学习总共分两类:
- 行为克隆:BC,Dagger
- 逆强化学习:又分为
2.1基于最大边际逆强化学习 (无法主要歧义问题):学徒学习
2.2 基于最大熵逆强化学习 (主要解决歧义问题):GAIL
学徒学习
基于最大熵逆强化学习: 思路 把熵函数加入在强化学习优化目标中,求最大期望汇报同时,熵最大的那个 来解决歧义问题
通过优化方法,求最大化的对数似然,解出w,然后R=w*状态-动作特征 近似奖励函数
GAIL
参考GAIL
模仿学习总共分两类:
学徒学习
基于最大熵逆强化学习: 思路 把熵函数加入在强化学习优化目标中,求最大期望汇报同时,熵最大的那个 来解决歧义问题
通过优化方法,求最大化的对数似然,解出w,然后R=w*状态-动作特征 近似奖励函数
GAIL
参考GAIL
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2376716.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!