强化学习的前世今生（五）

书接前四篇
强化学习的前世今生（一）
强化学习的前世今生（二）
强化学习的前世今生（三）— PPO算法
强化学习的前世今生（四）— DDPG算法
本文为大家介绍SAC算法

7 SAC

7.1 最大熵强化学习

在信息论中，熵(entropy)是用来衡量一个随机变量不确定性大小的度量，对于一个随机变量 $X$ ，其定义为
$\begin{align*} H(X)&=\mathbb{E}_{x\sim p(x)}[-\log p(x)]\\ \end{align*}\tag{7.1}$
首先，说明 $X$ 的不确定性和熵的大小的关系：

若 $X$ 为连续型随机变量，简便起见，仅考虑 $X$ 服从正态分布 $p(x)=\mathcal{N}(\mu,\sigma^2)$ 的情况，此时
$H(X)=\frac{1}{2}\log(2\pi e\sigma^2)\tag{7.2}$
若 $X$ 为离散型随机变量，可能的取值为 $x_1,\cdots,x_n$ ，对应的概率为 $p(x_1),\cdots,p(x_n)$ ，则其对应的熵可以写为
$H(X)=-\sum_{i=1}^{n}p(x_i)\log p(x_i)\tag{7.3}$
不难看出，当 $X$ 在其所有可能取值处概率相等时，熵的值最大，为 $\log(n)$ ；当 $X$ 在某个取值处概率为 $1$ ，其他取值处概率为 $0$ 时，熵的值最小，为 $0$

综上所述，可以看出， $X$ 的不确定性越大，其对应的熵也越大。后文也记服从某个分布 $p(\cdot)$ 的随机变量的熵为 $H(p(\cdot))$

在这里插入图片描述

最大熵强化学习(maximum entropy RL)算法希望在最大化累积奖励的同时，还要使得策略更加随机，因此在强化学习的目标函数中引入了一个熵正则项，并将最大熵强化学习框架下的最优策略定义为
$\pi^{\ast}_{\mathrm{MaxEnt}}\overset{\mathrm{def}}{=}\underset{\pi}{\arg\max}\,\mathbb{E}_{\pi}\left\{\left.\sum_{t=0}^{\infty}\gamma^{t}\left[r(s_t,a_t)+\alpha H(\pi(\cdot|s_t))\right]\right.\right\}\tag{7.4}$
其中
$H(\pi(\cdot|s_t))=\mathbb{E}_{a_t\sim \pi(a_t|s_t)}[-\log \pi(a_t|s_t)]\tag{7.5}$
表示策略 $\pi$ 在状态 $s_t$ 下的不确定度， $\alpha$ 为正则化系数，也称温度系数，用来控制熵的重要程度。此处，我们称这种更加随机的策略。

7.2 能量模型

借鉴物理学中的玻尔兹曼分布(Boltzmann distribution)，可以得出能量模型(energy-based model)
$p(x)=\frac{\exp(-E(x))}{Z}=\frac{\exp(-E(x))}{\int \exp(-E(x))dx}\tag{7.6}$
其中 $E (x)$ 是状态 $x$ 的能量， $Z$ 为配分函数(partition function)，用于归一化

在本节中，通过能量模型来给出策略 $\pi$ 的形式如下，其中策略 $\pi$ 的能量定义为 $-\frac{1}{\alpha}Q^{\pi}_{\mathrm{soft}}(s_t,a_t)$
$\pi(a_t|s_t)=\frac{\exp\left(\frac{1}{\alpha}Q^{\pi}_{\mathrm{soft}}(s_t,a_t)\right)}{\int \exp\left(\frac{1}{\alpha}Q^{\pi}_{\mathrm{soft}}(s_t,a)\right)da}\tag{7.7}$
此处策略 $\pi$ 具有softmax函数的形式，故后续该策略形式的方法称为soft类方法。

定义策略 $\pi$ 的soft Q value为
$Q^{\pi}_{\mathrm{soft}}(s_t,a_t)\overset{\mathrm{def}}{=}r(s_t,a_t)+\mathbb{E}_{(s_{t+1},\cdots)\sim p^{\pi}(s_{t+1},\cdots|s_{t},a_{t})}\left\{\sum_{l=0}^{\infty}\gamma^{t+l}\left[r_{t+l}+\alpha H(\pi(\cdot|s_{t+l}))\right]\right\}\tag{7.8}$
再定义策略 $\pi$ 的soft state value为
$V^{\pi}_{\mathrm{soft}}(s_t)\overset{\mathrm{def}}{=}\alpha \log\int\exp\left(\frac{1}{\alpha}Q^{\pi}(s_t,a^{\prime})\right)da^{\prime}\tag{7.9}$
结合 $(7.7), (7.10)$ ，可以得到
$\pi(a_t|s_t)=\frac{\exp\left(\frac{1}{\alpha}Q^{\pi}_{\mathrm{soft}}(s_t,a_t)\right)}{\exp\left(\frac{1}{\alpha}V^{\pi}_{\mathrm{soft}}(s_t)\right)}=\exp\left(\frac{1}{\alpha}(Q^{\pi}_{\mathrm{soft}}(s_t,a_t)-V^{\pi}_{\mathrm{soft}}(s_t))\right)\tag{7.10}$
其中 $\frac{1}{\alpha}V^{\pi}(s_t)$ 为配分函数的对数，由该式不难看出
$\begin{align*} V^{\pi}_{\mathrm{soft}}(s_t)&=Q^{\pi}_{\mathrm{soft}}(s_t,a_t)-\alpha\log(a_t|s_t)\\ \end{align*}\tag{7.11}$
为增强计算的鲁棒性，也可将 $(7.11)$ 写成
$V^{\pi}_{\mathrm{soft}}(s_t)=\mathbb{E}_{a_t\sim\pi(a_t|s_t)}[Q^{\pi}_{\mathrm{soft}}(s_t,a_t)-\alpha\log(a_t|s_t)]\tag{7.12}$
soft Q value和soft state value之间的关系为
$Q^{\pi}_{\mathrm{soft}}(s_t,a_t)=r(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}\sim p(s_{t+1}|s_{t},a_{t})}\left[V^{\pi}_{\mathrm{soft}}(s_{t+1})\right]\\\tag{7.13}$
上式也称为soft贝尔曼方程。

7.3 soft策略迭代

soft策略迭代算法由二条引理和一条定理给出，其中引理一指导策略评估，引理二指导策略提升，而最后的定理则保证经过不断交替策略评估与策略提升，策略将收敛于最优策略，下面逐条说明。

为说明引理一，首先定义贝尔曼回溯算子 $\mathcal{T}^{\pi}$ ：对于任意映射 $Q:\mathcal{S}\times\mathcal{A}\rightarrow\mathbb{R}$
$\mathcal{T}^{\pi}Q(s_t,a_t)=r(s_t,a_t)+\gamma\mathbb{E}_{s_{t+1}\sim p(s_{t+1}|s_{t},a_{t})}[V(s_{t+1})]\tag{7.14}$
其中
$V(s_t)=\mathbb{E}_{a_t\sim\pi(a_t|s_t)}[Q(s_t,a_t)-\log\pi(a_t|s_t)]\tag{7.15}$
${\color{brown}引理一\text{(soft策略评估)}}$ ：对一个贝尔曼回溯算子 $\mathcal{T}^{\pi}$ ，任意给定一个初始映射 $Q_0:\mathcal{S}\times\mathcal{A}\rightarrow\mathbb{R}$ 以及 $|\mathcal{A}|<\infty$ ，并定义 $Q_{k+1}=\mathcal{T}^{\pi}Q_{k}$ ，则当 $k\rightarrow\infty$ 时，序列 ${Q_{k}\}$ 收敛于策略 $\pi$ 的soft Q value

再说明引理二，首先定义
$\begin{align*} \pi_{\mathrm{new}} &=\underset{\pi\in\Pi}{\arg\min}\,D_{KL}\left(\pi(\cdot|s_t)\left\|\frac{\exp(Q^{\pi_{\mathrm{old}}}(\cdot|s_t))}{Z^{\pi_{\mathrm{old}}}}\right.\right)\\ &=\underset{\pi\in\Pi}{\arg\min}\,\mathbb{E}_{a_t\sim\pi(a_t|s_t)}\left[\log\left(\frac{\pi(a_t|s_t)}{\frac{\exp(\frac{1}{\alpha}Q^{\pi_{\mathrm{old}}}(\cdot|s_t))}{Z^{\pi_{\mathrm{old}}}}}\right)\right]\\ &=\underset{\pi\in\Pi}{\arg\min}\,\mathbb{E}_{a_t\sim\pi(a_t|s_t)}\left[\log\pi(a_t|s_t)-\frac{1}{\alpha}Q^{\pi_{\mathrm{old}}}(a_t|s_t)+\log Z^{\pi_{\mathrm{old}}}\right]\\ &=\underset{\pi\in\Pi}{\arg\min}\,\mathbb{E}_{a_t\sim\pi(a_t|s_t)}\left[\log\pi(a_t|s_t)-\frac{1}{\alpha}Q^{\pi_{\mathrm{old}}}(a_t|s_t)\right]\\ \end{align*}\tag{7.16}$
其中 $Z^{\pi_{\mathrm{old}}}$ 为归一化因子。可以看出，上式要求新策略下的动作分布与玻尔兹曼分布尽可能接近。

${\color{brown}引理二\text{(soft策略提升)}}$ ：对任意 $\pi_{\mathrm{old}}\in\Pi$ ，令 $\pi_{\mathrm{new}}$ 为 $(7.16)$ 的解，则 $Q^{\pi_{\mathrm{new}}}(s_t,a_t)\geqslant Q^{\pi_{\mathrm{old}}}(s_t,a_t)$

${\color{brown}定理\text{(soft策略迭代)}}$ ：交替应用soft策略评估和soft策略提升，任意初始策略 $\pi$ 收敛到最优策略 $\pi^{\ast}$ ，即对任意 $\pi\in\Pi$ 和 $(s_t,a_t)\in\mathcal{S}\times\mathcal{A}$ ，且 $|\mathcal{A}|<\infty$ ，满足 $Q^{\pi^{\ast}}(s_t,a_t)>Q^{\pi}(s_t,a_t)$

尽管上述理论可以找到最优策略，但只能在表格情况下执行算法，因此后面对该方法进行近似，以适用于连续空间领域，即使用神经网络来近似Q值。

7.4 SAC算法

SAC(Soft Actor Critic)算法中，采用的优化框架为
$\begin{align*} &\underset{\pi}{\max}\mathbb{E}_{\pi}\left[\sum_{t=0}^{T}r(s_t,a_t)\right]\qquad\text{subject to}\,\,\,H(\pi(\cdot|s_t))\geqslant H_0\tag{7.17} \end{align*}$
通过引入对偶变量 $\alpha_t$ ，可将上式的求解过程等价于从 $t = T - 1$ 到 $t = 0$ ，交替优化
$\begin{align*} \pi_{t}^{\ast}&=\underset{\pi_{t}}{\arg\max}\,\mathbb{E}_{(s_t,a_t)\sim p^{\pi_t}(s_t,a_t)}[Q^{\ast}(s_t,a_t)+\alpha_t H(\pi_t(\cdot|s_t))-\alpha_t H_0]\tag{7.18}\\ \alpha_t^{\ast}&=\underset{\alpha_{t}}{\arg\max}\,\mathbb{E}_{(s_t,a_t)\sim p^{\pi_t}(s_t,a_t)}[\alpha_t H(\pi^{\ast}_t(\cdot|s_t))-\alpha_t H_0]\tag{7.19} \end{align*}$
其中 $p^{\pi_t}(s_t,a_t)$ 表示在策略 $\pi_t$ 下在 $t$ 时刻状态动作对为 $s_t,a_t)$ 的概率， $Q$ 函数定义如下
$\begin{align*} Q(s_T,a_T)&=Q^{\ast}(s_T,a_T)=r(s_T,a_T)\\ Q(s_t,a_t)&=r(s_t,a_t)+\mathbb{E}_{s_{t+1}\sim p(s_{t+1}|s_t,a_{t}),a_{t+1}\sim\pi_{t+1}(a_{t+1}|s_{t+1})}[Q(s_{t+1},a_{t+1})-\alpha_t \log\pi_{t+1}(a_{t+1}|s_{t+1})]\\ Q^{\ast}(s_t,a_t)&=r(s_t,a_t)+\mathbb{E}_{s_{t+1}\sim p(s_{t+1}|s_t,a_{t}),a_{t+1}\sim\pi^{\ast}_{t+1}(a_{t+1}|s_{t+1})}[Q(s_{t+1},a_{t+1})-\alpha_t \log\pi^{\ast}_{t+1}(a_{t+1}|s_{t+1})]\\ \end{align*}\tag{7.20}$
可以看到， $Q$ 函数的递推关系与soft 策略评估一致，策略优化的形式在稍加转换后也与soft 策略提升一致

SAC是一个Actor-Critic类算法，其中包含 $\color{red}5个神经网络$ ，分别为两个用于避免Q值的过高估计的训练动作价值网络，以及用于这两个网络各自对应的目标动作价值网络，和一个策略网络。

根据soft 策略评估方法，任意一个训练动作价值网络 $Q_{w_j},j=1,2$ 的损失函数为
$\begin{align*} L(w_j) &=\mathbb{E}_{(s_t,a_t,r_{t+1},s_{t+1})\sim\mathcal{R}}\left[(Q_{w_j}(s_t,a_t)-(r_{t}+ \min_{j=1,2}Q_{w^{-}_{j}}(s_{t+1},a_{t+1})-\alpha\log\pi_{\theta}(a_{t+1}|s_{t+1})))^2\right]\\ \end{align*}\tag{7.21}$
其中取 $\min$ 是为了避免Q值估计过高，下同。

根据soft 策略提升方法，策略网络 $\pi_{\theta}$ 的损失函数可写为
$L(\theta)=\mathbb{E}_{s_t\sim\mathcal{R},a_t\sim\pi_{\theta}(a_t|s_t)}[\alpha\log\pi_{\theta}(a_t|s_t)-\min_{j=1,2}Q_{w_j}(s_t,a_t)]\tag{7.22}$
注意，SAC的策略网络输出的并不是动作本身的概率，而是高斯分布的均值 $\mu_{\theta}(s_t)$ 和标准差 $\sigma_{\theta}(s_t)$ ，得到高斯分布参数后根据 $a_t\sim\mathcal{N}(\mu_{\theta}(s_t),\sigma^2_{\theta}(s_t))$ 进行采样得到动作

虽然采样的过程和策略参数 $\theta$ 有关，但因为 $a_t$ 无法表示为 $\theta$ 的确定性函数，故采样过程不可导，即 $a_t$ 无法对 $\theta$ 求导。而要通过 $(7.22)$ 优化策略参数，必须知道动作对策略参数的导数。因此采用 $\color{magenta}\text{{重参数化技巧}(reparameterization trick)}$ ，先从一个单位高斯分布 $\epsilon_t\sim\mathcal{N}(0,1)$ 中采样，再将采样结果乘以标准差 $\sigma_{\theta}$ 再加上均值 $\mu_{\theta}$ ，再考虑到动作的输出常会被限制在固定范围，如 $(- 1, 1)$ ，故
$\begin{align*} u_t&=\mu_{\theta}(s_t)+\sigma_{\theta}(s_t)*\epsilon_t\tag{7.23}\\ a_t&=\mathrm{tanh}(u_t)\tag{7.24} \end{align*}$
通过重参数化技巧，将采样过程转换为了以 $\theta$ 为参数的确定映射，记为 $a_t=f_{\theta}(\epsilon_t;s_t)$ ，此时 $a_t$ 对 $\theta$ 可导。可以策略网络的重新写出损失函数为
$L(\theta)=\mathbb{E}_{s_t\sim\mathcal{R},\epsilon_t\sim\mathcal{N}(0,1)}[\alpha\log\pi_{\theta}(f_{\theta}(\epsilon_t;s_t)|s_t)-\min_{j=1,2}Q_{w_j}(s_t,f_{\theta}(\epsilon_t;s_t))]\tag{7.24}$
下面解释在上面中并未详细说明的 $\log\pi_{\theta}(a_t|s_t)$ 的形式：设 $u_t$ 的概率分布是 $\mu(u_t|s_t)$ ，根据复合函数的概率分布法则，动作 $a_t$ 的概率为
$\begin{align*} \pi(a_t|s_t)&=\mu(\mathrm{tanh}^{-1}(a_t)|s_t)\left|\mathrm{det}\left(\frac{\mathrm{tanh}^{-1}(a_t)}{da_t}\right)\right|\\ &=\mu(u_t|s_t)\left|\mathrm{det}\left(\frac{du_t}{da_t}\right)\right|\\ &=\mu(u_t|s_t)\left|\mathrm{det}\left(\left(\frac{da_t}{du_t}\right)^{-1}\right)\right|\\ &=\mu(u_t|s_t)\left|\mathrm{det}\left(\frac{da_t}{du_t}\right)\right|^{-1}\\ \end{align*}\tag{7.25}$
上式中第二个等号开始只是数值上的相等，而非分布本身，由于 $\frac{da_t}{du_t}=\mathrm{diag}(\mathbf{1}-\mathrm{tanh}^2(u_t))$ ，故
$\log\pi_{\theta}(a_t|s_t)=\log\mu(u_t|s_t)-\sum_{i=1}^{D}\log(1-\mathrm{tanh}^2(u_t^{i}))\tag{7.26}$
其中 $D$ 表示动作 $a_t$ 的维度，也是中间变量 $u_t$ 的维度。

上面说明了SAC中训练动作价值网络和策略网络的更新方式，而目标网络的更新方式与DDPG中相同。

此外，根据 $(7.19)$ 可以写出对偶变量 $\alpha_t$ 的损失函数

$L(\alpha_t)=\mathbb{E}_{s_t\sim\mathcal{R},a_t\sim\pi_{\theta}(a_t|s_t)}[-\alpha\log\pi(a_t|s_t)-\alpha H_0]\tag{7.27}$

SAC算法的伪代码如下：

1 初始化策略网络参数 $\theta$ 和两个价值网络参数 $w_1,w_2$

2 复制相同参数到目标策略网络参数 $\theta^{-}$ 和目标价值网络参数 $w^{-}$ ，即令 $\theta^{-}\leftarrow \theta,\,\,w^{-}_j\leftarrow w_j,\,j=1,2$

3 获取环境初始状态 $s_0$

4 如果策略网络参数或价值网络参数没有收敛，循环执行

5 根据当前策略决定的动作分布 $\pi_{\theta}(a_t|s_t)$ 中抽样动作 $a_t$

6 执行动作 $a_t$ ，得到奖励 $r_t$ ，进入下一个状态 $s_{t+1}$

7 将 $s_t,a_t,r_t,s_{t+1})$ 放入经验回放池 $\mathcal{R}$

8 从经验回放池 $\mathcal{R}$ 中抽样 $N$ 个元组 $\{(s_i,a_i,r_i,s_{i+1})\}_{i=1,\cdots,N}$ ，并采样 $a_{i+1}\sim\pi_{\theta}(a_{i+1}|s_{i+1})$

9 对每个元组，通过目标网络计算 $y_i=r_{i}+ \min_{j=1,2}Q_{w^{-}_{j}}(s_{i+1},a_{i+1})-\alpha\log\pi_{\theta}(a_{i+1}|s_{i+1})$

10 对两个价值网络 $Q_{w_j},j=1,2$ 构造相同的损失函数
$L(w_j)=\frac{1}{N}\sum_{i=1}^{N}(y_i-Q_{w_j}(s_i,a_i))^2$
11 自动推导梯度并更新价值网络参数 $w\leftarrow w-\eta_{w}\nabla_{w}L(w)$

12 采用重参数化技巧采样动作 $\tilde{a}_{t}$ ，用以下损失函数更新策略网络 $\pi_{\theta}$
$L(\theta)=\frac{1}{N}\sum_{i=1}^{N}Q_{w}(\alpha\log\pi_{\theta}(\tilde{a}_{t}|s_t)-\min_{j=1,2}Q_{w_j}(s_t,a_t))$
13 自动推导梯度并更新价值网络参数 $\theta\leftarrow\theta-\eta_{\theta}\nabla_{\theta}L(\theta)$

14 构造 $\alpha$ 的损失函数
$L(\alpha)=\frac{1}{N}\sum_{i=1}^{N}(-\alpha\log\pi(a_t|s_t)-\alpha H_0)$
13 自动推导梯度并更新价值网络参数 $\alpha\leftarrow\alpha-\eta_{\alpha}\nabla_{\alpha}L(\alpha)$

14 采用软更新的方式更新目标网络参数
$\begin{align*} w^{-}_1&\leftarrow\phi w_1+(1-\phi)w^{-}_1\\ w^{-}_2&\leftarrow\phi w_2+(1-\phi)w^{-}_2\\\\ \end{align*}$

参考

[1] Reinforcement Learning with Deep Energy-Based Policies
[2] Soft Actor-Critic Algorithms and Applications
[3] Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
[4] 最前沿：深度解读Soft Actor-Critic 算法
[5] Lil’Log Policy Gradient Algorithms
[6] 动手学强化学习