Policy Network (策略网络)

我们无法知道策略函数 $\pi$ 所以要做函数近似，求一个近似的策略函数
使用策略网络 $\pi(a|s;\theta)$ 去近似策略函数 $\pi(a|s)$

在这里插入图片描述
$\sum_{a\in A} \pi(a|s;\theta) = 1$
动作空间A的大小是多少，输出向量的维度就是多少。

策略学习的目标函数

状态价值函数(State-value function)
$V_\pi(s_t)=E_A[Q_\pi(s_t,A)] = \sum_a\pi(a|s_t)\cdot Q_\pi(s_t,a)$
对A求期望，去掉A的影响
用策略网络 $\pi(a|s_t;\theta)$ 去近似策略函数 $\pi(a|s_t)$
$V_\pi(s_t;\theta)=E_A[Q_\pi(s_t,A)] = \sum_a\pi(a|s_t;\theta)\cdot Q_\pi(s_t,a)$
近似状态价值既依赖于当前状态 $s_t$ ，也依赖于策略网络 $\pi$ 的参数 $\theta$
如果一个策略很好，那么状态价值函数的近似 $V_\pi(s;\theta)$ 的均值应当很大。因此我们定义目标函数：
$J(\theta)=E_S[V_\pi(s;\theta)]$
目标函数 $J(\theta)$ 排除了状态 $S$ 的因素，只依赖于策略网络 $\pi$ 的参数 $\theta$ 。策略越好，则 $J(\theta)$ 越大，所以策略学习可以被看作是这样一个优化问题：
$\mathop{max}_{\theta}J(\theta)$
通过学习参数 $\theta$ ，使得目标函数 $J(\theta)$
越来越大，也就意味着策略网络越来越好。

使用策略梯度上升更新 $\theta$ ，使得 $J(\theta)$ 增大。
设当前策略网络的参数为 $\theta$ ,做梯度上升更新参数，得到新的参数 $\theta'$ , $\beta$ 为学习率
$\theta' =\theta+\beta \cdot \frac{\mathrm{\partial}V(s;\theta)}{\mathrm{\partial}\theta}$

策略梯度(Policy Gradient)

$\frac{\mathrm{\partial}V(s;\theta)}{\mathrm{\partial}\theta}$ 大概推导不严谨实际上 $Q_\pi$ 中也有 $\theta$ 要求导
在这里插入图片描述

使用策略梯度更新策略网络

算法：
1、在 $t$ 时刻观测到状态 $s_t$
2、根据策略网络 $\pi(.|s_t;\theta)$ 随机抽样一个动作 $a_t$
3、计算动作价值 $q_t \approx Q_\pi(s_t,a_t)$
4、计算策略网络关于参数 $\theta$ 的微分 $d\theta = \frac{\mathrm{\partial}ln\pi(a|s;\theta)}{\mathrm{\partial}\theta}|_{\theta=\theta_t}$
5、计算近似策略梯度 $g(a_t,\theta_t)=q_t,d\theta$
6、更新策略网络： $\theta_{t+1}=\theta_t+\beta \cdot g(a_t,\theta_t)$

在第 3 步中，怎么计算 $q_t$ ？
在后面章节中，我们用两种方法对 $Q_\pi(s,a)$ 做近似。
1、REINFORCE 算法
用实际观测的回报 $u$ 近似 $Q_\pi(s,a)$ 。
2、actor-critic 算法
用神经网络 $q (s, a; w)$ 近似 $Q_\pi(s,a)$ 。