【强化学习笔记1】从强化学习的基本概念到近端策略优化（PPO）

好久没有更新了。最近想学习一下强化学习，本系列是李宏毅老师强化学习的课程笔记。

1. Policy-based Model

1.1 Actor

在policy-based model中，主要的目的就是训练一个actor。

在这里插入图片描述

对于一个episode（例如，玩一局游戏），agent的observation、action和reward组成这样一个序列：
$\tau = \{s_1,a_1,r_1,...,s_T,a_T,r_T\}$
上面的s可以理解为环境的State，那么做N次episode，所有的reward的和是
$R(\tau) = \sum_{n=1}^Nr_n$
对于模型的一个参数 $\theta, \tau$ 取到的概率实际上与\theta有关系：
$P(\tau|\theta)$
然后我们关心的是一个episode的reward的期望：
$\bar{R}_{\theta}=\sum_\tau R(\tau)P(\tau|\theta)$
那么怎么去训练这个模型？推导过程如下：
$\nabla_\theta\bar{R}_{\theta}=\sum_\tau R(\tau)\nabla_\theta P(\tau|\theta) \\ (所以梯度与R(\tau)无关，它不需要可微，甚至可以是一个黑盒) \\ (\nabla_x \log f(x)=\frac{1}{f(x)} \nabla_x f(x)) =\sum_\tau R(\tau)P(\tau|\theta)\nabla_x \log P(\tau|\theta) \\ 根据大数定律, 当样本足够多时，样本均值依概率收敛于总体均值，即\mu=\sum_\tau R(\tau)P(\tau|\theta)\approx \bar{X} = 1/N\sum_{i=1}^N R(\tau_i) \\ 因此 \\ 原式\approx 1/N \sum_{i=1}^N R(\tau_i) \nabla_\theta \log P(\tau|\theta)$
那么
$\nabla_\theta \log P(\tau|\theta)$
怎么算?

将一个episode拆解开，实际上就是每次的1. 根据环境的state做出action，2. 环境根据action和上一次的state给出下一次的state和当前的reward：
$P(\tau|\theta)=p(s_1)p(a_1|s_1,\theta)p(s_2,r_1|s_1,a_1)...p(a_k|s_k,\theta)p(s_{k+1},r_k|s_k,a_k)... \\ =p(s_1)\cdot \Pi_{t=1}^Tp(a_t|s_t,\theta)p(s_{t+1},r_t|s_t,a_t)$
有连乘，取对数：
$\log P(\tau|\theta)=\log p(s_1) + \sum_t[ \log p(a_t|s_t,\theta) + \log p(s_{t+1},r_t|s_t,a_t)]$
所以
$\nabla_\theta \log P(\tau|\theta) = \sum_t \nabla_\theta \log p(a_t|s_t,\theta)$
最终的梯度更新方式为：
$\nabla_\theta\bar{R}_{\theta}=1/N \sum_{i=1}^N R(\tau_i)\sum_t \nabla_\theta \log p(a_t|s_t,\theta)$
Reward越大越好，所以实际上上面这个式子也是越大越好。上述这种梯度计算的方式是显然的：

对于一个episode，如果它最终的reward $R(\tau_i)$ 为正，那么我们肯定希望在这个episode中的每一个决策出现的概率都足够大；反之，如果reward为负，那么我们希望概率足够低。
为什么要用 $\log$ 的梯度，而不直接是 $\nabla_\theta p(a_t|s_t,\theta)$ ? 这是因为，假如出现了下面这种情况，即状态 $s$ 在4个episode中都出现过，actor的反应和得到的reward如下图：

所以，模型会偏好出现次数多的action，因为虽然出现次数多的action，reward不一定很大，但是相加起来依旧可以增大最后的reward。所以，要对“出现次数”进行某种“归一化”，也就是除以概率就好： $\frac{\nabla_\theta p(a_t|s_t,\theta)}{p(a_t|s_t,\theta)} = \nabla_\theta \log p(a_t|s_t,\theta)$ .

在通常情况下，为了避免Reward在啥时候都是正数的情况，需要减去一个bias，让Reward有正有负：
$\nabla_\theta\bar{R}_{\theta}=1/N \sum_{i=1}^N (R(\tau_i) - b)\sum_t \nabla_\theta \log p(a_t|s_t,\theta) \\ = 1/N \sum_{i=1}^N \sum_t (R(\tau_i) - b)\nabla_\theta \log p(a_t|s_t,\theta)$

然而，上面这个公式还有一点点问题。在一条轨迹中所有的动作都具有同样的价值。然而从直觉上来看，一条轨迹中一般不会所有的动作都是好的，而是有些动作好，而另外一些动作差，然而这些动作目前却会以相同的方式更新概率，这也会造成训练的不稳定。因此有必要为每个动作赋予其所应得的奖励。考虑到交互过程中 Actor 采取某一动作只会对之后的状态产生影响，而不会对之前的有影响。因此，不必令每个动作的权重都为全部奖励之和，而只需要累计在当前动作之后的奖励之和 $R(\tau_i)=\sum_{t'=t}^{T_i}r_{t'}^{i}$ , 其中 $T_n$ 是第 $i$ 个trajectory的长度， $r_{t'}^{i}$ 表示第 $i$ 个trajectory中时刻 $t^{'}$ 的环境真实奖励。

另一个直觉是，当前动作会对时间较近的状态影响大，时间较远的影响小。因此，在计算累计奖励的时候，对于未来较遥远的奖励应该予以折扣，因此
$R(\tau_i)=\sum_{t'=t}^{T_i} \gamma^{t'-t} r_{t'}^{i}$
最终的梯度更新公式为：
$\nabla_\theta\bar{R}_{\theta} = 1/N \sum_{i=1}^N \sum_t (\sum_{t'=t}^{T_i} \gamma^{t'-t} r_{t'}^{i} - b)\nabla_\theta \log p(a_t|s_t,\theta)$

1.2 Critic

Critic并不决定action，其负责评价action的好坏，表示为 $V^\pi(s)$ , 意思是用一个actor $\pi$ ,在当前状态为 $s$ 的情况下，从现在到一个episode结束累积的Reward的期望是多少.

如何估计Critic?

蒙特卡洛方法: 让Critic看actor玩游戏, 当前state为 $s$ 时,在游戏结束的Reward总和为 $r$ ,所以这就是一个回归问题. 让Critic输入为 $s$ 时,输出为 $r$ .
时序差分方法: 对于序列中的 $s_t,a_t,r_t,s_{t+1}$ , 有递归关系 $V^\pi(s_t)=V^\pi(s_{t+1})+r_t$ ,也就是说 $V^\pi(s_t)-V^\pi(s_{t+1})=r_t$ , 因此，只需要在Critic网络中，输入 $s_t$ 得到 $V^\pi(s_t)$ ,输入 $s_{t+1}$ 得到 $V^\pi(s_{t+1})$ ,然后约束是让 $V^\pi(s_t)-V^\pi(s_{t+1})$ 接近 $r$ . 这样的好处就是不需要等整个游戏结束之后再计算Critic.

还有一种Critic的方式, 称之为Q-function, 定义是 $Q^\pi(s,a)$ .意思是用一个actor $\pi$ ,在当前状态为 $s$ 的情况下，采取action为 $a$ , 从现在到一个episode结束累积的Reward的期望是多少.

从Q-function可以引出Q-learning, 流程是这样的: 1. actor $\pi$ 和环境进行交互. 2. 通过MC或者时序差分方法训一个 $Q$ . 3. $Q$ 可以去选一个比 $\pi$ 更好的actor $\pi'$ , 然后重复上面这个过程.

上面的第三步是怎么做到的呢? 实际上, 更好的actor $\pi'$ 的本质是对于所有的 $s$ , $V^{\pi'}(s)\ge V^\pi(s)$ . 做到这一点, 实际上就是采取能使得 $Q$ 最大的 $a$ :
$\pi' (s) = \arg \max_a Q^\pi(s,a)$

1.3 Actor + Critic

1.3.1 Advantage Actor-Critic( $A^2C$ )

在A2C中, actor网络的更新公式为:
$\nabla_\theta\bar{R}_{\theta}=1/N \sum_{i=1}^N \sum_t A(s_t,a_t) \nabla_\theta \log p(a_t|s_t,\theta)$
所以, 和前面传统方法不同的就是用优势函数 $A$ 替代了原本的环境Reward真值 $R(\tau)$ . 优势函数的引出如下：

我们考虑采取某个动作 $a$ 相对于平均动作的优势:
$A(s_t,a_t) = Q(s_t,a_t)-V(s_t)$
(我们先忽略上标 $\pi$ , $Q, V$ 的含义和上面一样)

根据时序差分的关系，可以得到
$\hat{Q}(s_t,a_t) = r+\gamma V(s_{t+1})$
(上式的含义就是对于 $t$ 往后的平均reward大概等于当前的环境reward $r$ 加上从 $t + 1$ 往后的reward均值)

代入上面的式子得到:
$A(s_t,a_t) = Q(s_t,a_t)-V(s_t)=r+\gamma V(s_{t+1})-V(s_t)$

所以 $A$ 实际上可以和 $a_t$ 是没有关系的。

让上面的式子 $\gamma=1$ , 还可以写成:
$A(s_t,a_t) =r+ V(s_{t+1})-V(s_t) = r - ( V(s_{t})-V(s_{t+1}))$
第一项是采取当前action的环境真实reward，第二项是对于actor $\pi$ 来说这一步的平均reward. 所以说, 优势函数描述了当前action在平均意义上的优势程度. 如果优势程度比较大, 那么我们就鼓励这种action的发生. 上面的式子还可以看出, 相当于给环境的reward加了一个动态的bias.

然后，别忘了 $V(s_{t})$ 是直接由价值网络预测的，价值网络的训练就是一个回归问题，尽量贴近环境真实的reward. 参见1.2 Critic

A2C等actor+critic相比于前面的传统方法，主要是解决这几个问题：

传统的方法过度依赖环境的Reward，但是环境的Reward通常不够稳定；而Q-learning通过学习动作价值预测函数来选择最优动作，不直接优化策略，可能会导致策略更新滞后。
Critic的价值估计为Actor提供了更直接的反馈，减少了策略探索的盲目性，加速了学习过程。
Actor-Critic方法可以在每一步都更新策略和价值函数，充分利用每个样本的信息，提高样本效率。

1.3.2 Async Advantage Actor-Critic( $A^3C$ )

A3C就是A2C的异步版本, 允许多个代理同时在不同环境中采样和更新，显著提高采样效率。

在这里插入图片描述

2. Inverse RL

对于没有reward function(比如机器人操作), 而只有一对trajectory的示例(或者说episode的示例), 那就需要IL来学习.

Inverse RL的核心是: 老师(也就是已经有的一堆trajectory)永远是对的.

所以说核心步骤如下: (核心概念就是先射箭在画靶)

初始化一个actor
在每个迭代中:
1. actor和环境互动, 得到一些trajectory
2. 定义一个reward function, 它使得teacher的trajectory永远比actor的要好
3. actor的目的就是最大化reward
输出reward function和actor

所以IRL和GAN异曲同工:

在这里插入图片描述

3. PPO 近端策略优化

近端策略优化（Proximal Policy Optimization，PPO）是一种强化学习算法，用于训练智能体通过与环境的交互来学习最优策略。它是深度强化学习中的一种策略梯度方法，目的是在更新策略时确保“过度更新”不会导致性能下降。

3.1 PPO的引出

我们再看一下1.3.1节的Actor-Critic范式里Actor的梯度更新公式：
$\nabla_\theta\bar{R}_{\theta}=1/N \sum_{i=1}^N \sum_t A(s_t,a_t) \nabla_\theta \log p(a_t|s_t,\theta)$
再复习一下，第一个 $\sum$ 中的 $i$ 表示轨迹（或者episode）的序号，第二个 $\sum$ 的 $t$ 表示轨迹中第 $t$ 步（的状态或动作）。为了简化，我们先只考虑一个轨迹：
$\nabla_\theta\bar{R}_{\theta}=\sum_t A(s_t,a_t) \nabla_\theta \log p(a_t|s_t,\theta) \\ \sim \mathbb{E}_{(s_t,a_t)\sim \pi_\theta} \{A(s_t,a_t) \nabla_\theta \log p_\theta(a_t|s_t) \}$
其中， $\sim$ 是一个正比关系，因为上面是求和，下面是平均，实际上就差一个系数，我们先不管。 $\mathbb{E}$ 的下标表示状态和动作是从参数为 $\theta$ 的actor $\pi_\theta$ 中采样得来的。

**于是发现一个问题：**如果按这种方式更新，那么流程就是，用actor $\pi_\theta$ 和环境交互，得到一系列的 $s_t,a_t)$ , 然后梯度更新之后，更新了参数 $\theta$ . 然而，我们的 $s_t,a_t)$ 是从 $\pi_\theta$ 中采样来的，所以参数更新之后，我们需要重新采样！效率很低。这种方式称为on-policy。

那么怎么解决这个问题？我们就需要使得 $s_t,a_t)$ 的采样和要更新的参数 $\theta$ 无关，这样我们就可以重复利用采样的数据，多次充分训练。这种方式称为off-policy。

具体怎么做呢？

我们先考虑这么一个问题：我们想求 $\mathbb{E}_{x\sim p}[f(x)]$ ，但是我不希望 $x$ 从分布 $p$ 中采样，而是希望 $x$ 从另一个分布 $q$ 中采样，同时还能估计这个概率值。于是写出：
$\mathbb{E}_{x\sim p}[f(x)] = \int f(x)p(x) dx = \int f(x) \frac{p(x)}{q(x)}q(x)dx = \mathbb{E}_{x\sim q}[f(x) \frac{p(x)}{q(x)}]$
但是这样就万事大吉了吗？对 $p, q$ 的接近程度是否有要求呢？均值相同，但是方差不一定相同。我们考察
$\mathbb{D}_{x\sim p} [f(x)] = \mathbb{E}_{x\sim p}[f^2 (x)] - \mathbb{E}^2_{x\sim p}[f(x)] \\ \mathbb{D}_{x\sim q} [f(x) \frac{p(x)}{q(x)}] = \mathbb{E}_{x\sim q} [(f(x) \frac{p(x)}{q(x)})^2] - \mathbb{E}^2_{x\sim q} [f(x) \frac{p(x)}{q(x)}] \\ = \int (f(x) \frac{p(x)}{q(x)})^2 q(x) dx - \mathbb{E}^2_{x\sim p}[f(x)] \\ = \int f^2(x) \frac{p(x)}{q(x)} p(x) dx - \mathbb{E}^2_{x\sim p}[f(x)] = \mathbb{E}_{x\sim p}[f^2(x) \frac{p(x)}{q(x)}] - \mathbb{E}^2_{x\sim p}[f(x)]$
所以，对于方差来说， $\mathbb{D}_{x\sim q} [f(x) \frac{p(x)}{q(x)}]$ 的第一项里面多乘了一个 $\frac{p(x)}{q(x)}$ . 所以，如果两个分布相差很大，那么方差也会相差很大，即采样的点会特别不同，那么明显不是一个好的估计。所以说，约束 $p, q$ 不要相差的太远是很必要的.

好，那我们一会再说如何约束，先看看，如果当前更新的参数是 $\theta$ ，能不能从另一个分布 $\theta'$ 去采样从而可以充分利用数据。我们通过上面的结论，假设，在actor $\pi_{\theta}$ 下 $s_t,a_t)$ 的联合概率密度函数为 $p_\theta (s_t,a_t)$ , 在另一个actor $\pi_{\theta'}$ 下 $s_t,a_t)$ 的联合概率密度函数为 $p_{\theta'} (s_t,a_t)$ . 根据上面的结论立即写出
$\mathbb{E}_{(s_t,a_t)\sim \pi_\theta} \{A(s_t,a_t) \nabla_\theta \log p_\theta(a_t|s_t) \} \\ = \mathbb{E}_{(s_t,a_t)\sim \pi_{\theta'}} \{\frac{p_\theta (s_t,a_t)}{p_{\theta'} (s_t,a_t)} A(s_t,a_t) \nabla_\theta \log p_\theta(a_t|s_t)\}$
又因为
$\frac{p_\theta (s_t,a_t)}{p_{\theta'} (s_t,a_t)}=\frac{p_\theta (a_t|s_t) p_{\theta}(s_t)}{p_{\theta'} (a_t|s_t) p_{\theta'}(s_t)} \approx \frac{p_\theta (a_t|s_t)}{p_{\theta'} (a_t|s_t)}$

上述约等于号的原因是，1. 我们很难估计 $p(s_t)$ 2. 其实在不同的actor下，可能某个状态出现的概率是近似相等的。

所以
$\mathbb{E}_{(s_t,a_t)\sim \pi_\theta} \{A(s_t,a_t) \nabla_\theta \log p_\theta(a_t|s_t) \} \\ = \mathbb{E}_{(s_t,a_t)\sim \pi_{\theta'}} \{\frac{p_\theta (a_t|s_t)}{p_{\theta'} (a_t|s_t)} A(s_t,a_t) \nabla_\theta \log p_\theta(a_t|s_t)\} \\ (\nabla \log f(x) = \frac{\nabla f(x)}{f(x)})= \mathbb{E}_{(s_t,a_t)\sim \pi_{\theta'}} \{\frac{ \nabla p_\theta (a_t|s_t)}{p_{\theta'} (a_t|s_t)} A(s_t,a_t) \}$

注意， $A(s_t,a_t)$ 这个量理论上也是与 $\theta$ 有关的，但是这种优势函数最主要还是受reward和state的影响，还是跟环境影响大，所以在更换参数前后不做区分。

所以，令
$\bar{R}_{\theta} = \mathbb{E}_{(s_t,a_t)\sim \pi_{\theta'}} \{\frac{ p_\theta (a_t|s_t)}{p_{\theta'} (a_t|s_t)} A(s_t,a_t) \}$
那么我们就按照$\nabla_\theta \bar{R}_{\theta} $更新参数。

那么，话说回来，我们如何约束 $p_\theta$ 和 $p_{\theta'}$ 的相似性？PPO-1算法指出，可以这样定义：
$\bar{R}_{\theta} = \mathbb{E}_{(s_t,a_t)\sim \pi_{\theta'}} \{\frac{ p_\theta (a_t|s_t)}{p_{\theta'} (a_t|s_t)} A(s_t,a_t) \} - \beta KL(p_\theta, p_{\theta'})$
其中KL散度的作用是，在最大化上面的式子，就需要最小化KL，也就是要让两个分布尽量接近。有的时候，也会采取动态 $\beta$ 参数，也就是如果KL太小了，说明模型过度关注要让两个分布接近，那么就减少 $\beta$ ，否则，就增大 $\beta$ .

3.2 PPO-2流程以及伪代码

相比于PPO-1，PPO-2具有更简洁的形式，它通过限制每次更新策略的变化幅度，来避免策略更新时的巨大波动。具体来说，它通过引入一个“剪切”目标函数（clipped objective），来约束策略更新的范围，从而避免策略的突然变化。

PPO的更新方式如下：
$\bar{R}_{\theta} = 1/N \sum_{i=1}^N \sum_t \min \{r_t(\theta)A(s_t,a_t),\text{clip}(1 - \epsilon,1 + \epsilon) A(s_t,a_t)\}$
其中 $r_t(\theta) = \frac{ p_\theta (a_t|s_t)}{p_{\theta'} (a_t|s_t)}$ , 是当前策略与旧策略的比值,

$A(s_t,a_t)$ 就是优势函数，可以按照1.3.1节中的计算方式去计算，但是更常用的是广义优势估计（GAE）的方法，公式如下：
$A(s_t,a_t) = \delta_t + (\lambda \gamma) \delta_{t+1} + (\lambda \gamma)^2 \delta_{t+2} + \dots$
其中 $\delta_t$ 是从 $t$ 时刻开始到结束的平均reward，计算方式恰好是1.3.1节中的 $A$ , 也即：
$\delta_t = r+\gamma V(s_{t+1})-V(s_t)$
取min的深意是什么？可以看下面这个图。图的横纵坐标是 $r_t(\theta)=\frac{ p_\theta (a_t|s_t)}{p_{\theta'} (a_t|s_t)}$ . 如果现在的A是正的，红色线是取min之后的总体结果。A是正的说明现在的action比较好，我们自然希望增大 $p_\theta(a_t|s_t)$ . 但是，也不能太大，因为太大之后分布差异太大，我们反而无法获益于从不同分布采样带来的好处（参见上一节）。所以，要限制。同理，A是负的时候，红线是取min的结果（乘负数大小相反）。A是负的我们希望减小 $p_\theta(a_t|s_t)$ . 但是，也不能太小，道理是一样的。

在这里插入图片描述

伪代码如下：

# 初始化策略网络 π_θ 和价值网络 V_φ，设置超参数
初始化策略网络 π_θ 和价值网络 V_φ
设置折扣因子 γ，GAE 参数 λ，剪切参数 ε，学习率 α，批次大小 N
设置最大更新步数 T，最大训练轮数 K

for 每个训练轮次 k in 1 到 K:
    # 收集数据
    初始化存储容器，存储状态 s, 动作 a, 奖励 r, 下一状态 s' 和折扣回报
    for 每个时间步 t in 1 到 T:
        通过策略网络 π_θ 选择动作 a_t 在状态 s_t 上
        与环境交互，获得奖励 r_t 和下一个状态 s_{t+1}
        存储 (s_t, a_t, r_t, s_{t+1}) 到存储容器

    # 计算优势估计 (GAE)
    对于每个时间步 t 从 T-1 到 1 反向计算：
        计算 TD 残差 δ_t = r_t + γ * V_φ(s_{t+1}) - V_φ(s_t)
        计算优势估计 \hat{A}_t 使用 GAE
        进行优势估计平滑

    # 更新策略和价值网络
    对每个 mini-batch（大小 N）进行迭代：
        # 计算重要性采样比 r_t(θ)
        r_t(θ) = π_θ(a_t | s_t) / π_θ_old(a_t | s_t)

        # 计算损失函数 L_CLIP
        L_CLIP = E_t[ min(r_t(θ) * \hat{A}_t, clip(r_t(θ), 1-ε, 1+ε) * \hat{A}_t) ]

        # 可选：加上熵正则化项 H(π_θ)
        L = L_CLIP + β * H(π_θ)

        # 更新策略网络参数 θ
        计算 L 对 θ 的梯度
        更新 θ = θ + α * 梯度

        # 更新价值网络参数 φ
        计算价值网络损失函数 L_critic
        更新 φ = φ - α * 梯度（使用 TD 错误的均方误差）

    # 更新旧策略网络 π_θ_old
    复制当前策略网络参数 π_θ 到 π_θ_old

返回 最终的策略 π_θ