这里写自定义目录标题
- 参考资料
- 环境
- 算法
- CPO 2017 ICML
- PCPO 2019 ICLR
- FOCOPS 2020 NIPS
- CRPO 2021 ICML
- CUP 2022 NIPS
 
TRPO
 如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎
参考资料
Safe Reinforcement Learning
安全/约束强化学习路线图(Safe RL Roadmap)编辑于 2023-05-06
Safe RL 的一点点总结编辑于 2021-04-25
 1.CPO
 2.RCPO
 3.CPPO-PID
 4.SafeLayer+DDPG
 5.Safety-Gym
【安全强化学习· 一】Safe Reinforcement Learning(一)2020
Constrained reinforcement learning
 constrained markov decision processes
PKU-Alignment/Safe-Policy-Optimization 作者就是CUP的作者
 NeurIPS 2023: Safe Policy Optimization: A benchmark repository for safe reinforcement learning algorithms
 PKU-MARL/OmniSafe github
 PKU-MARL/OmniSafe 作者就是CUP的作者
 OpenAI/safety-starter-agents github
环境
safety-gym openai
 Benchmarking Safe Exploration in Deep Reinforcement Learning, Ray et al, 2019.
safety-gymnasium
 Bullet-Safety-Gym
算法
| 算法 | 算法 | 类型 | 时间 | 会议 | 引用量 | 
|---|---|---|---|---|---|
| CPO | 约束策略优化 | 二阶 | 2017 | ICML | 1214 | 
| RCPO | 奖励约束策略优化 | 2018 | ICLR | 452 | |
| PCPO | 基于投影的约束策略优化 | 二阶 | 2019 | ICLR | 188 | 
| FOCOPS | 策略空间中的一阶约束优化 | 一阶 | 2020 | NIPS | 87 | 
| CRPO | 约束修正策略优化 | Lagrange | 2021 | ICML | 84 | 
| CUP | 约束更新投影 | 一阶 | 2022 | NIPS | 18 | 
CPO 2017 ICML
Constrained Policy Optimization 上海交通大学 工学硕士
 CPO omnisafe
PCPO 2019 ICLR
PCPO omnisafe
FOCOPS 2020 NIPS
FOCOPS slideslive
 FOCOPS slideslive 短
 FOCOPS omnisafe
CPO的问题
 从当前策略获取样本轨迹时产生的错误。
 泰勒近似引起的近似误差。
 使用共轭法计算Fisher信息矩阵的逆矩阵会产生近似误差。
FOCOPS的优势
 实现简单,只使用一阶近似。
 简单的一阶法避免了泰勒法和共轭法引起的误差。
 在实验中表现优于CPO。
 不需要任何恢复步骤。
Two-stage Policy Update
CRPO 2021 ICML
CRPO slideslive
 CRPO  slideslive 短
 
 
CUP 2022 NIPS
强化学习 safe RL小综述 从TRPO出发 捋清CPO | CUP编辑于 2022-11-24
将GAE引入推导,得出了更紧的上下界
 在具体的实现上做了改变,使得每次更新对计算资源的需求更小。



















