强化学习------贝尔曼方程

- 前言
- 基础知识
- 马尔可夫决策过程 (Markov decision process, MDP)
- - - 回报(Return)
    - 折扣回报(Discounted Return)
- State Value（状态价值函数）
- 贝尔曼方程的推导
- 贝尔曼方程的矩阵形式
- Action Value（动作价值函数）
- 贝尔曼最优公式

前言

最近在学习强化学习的内容，为了更加方便理解强化学习中的各种算法与底层原理，学习了贝尔曼方程以及最优公式，特此记录
参考课程：强化学习的数学原理

什么是贝尔曼方程？

贝尔曼方程，又叫动态规划方程，是以Richard Bellman命名的，表示动态规划问题中相邻状态关系的方程。某些决策问题可以按照时间或空间分成多个阶段，每个阶段做出决策从而使整个过程取得效果最优的多阶段决策问题，可以用动态规划方法求解。某一阶段最优决策的问题，通过贝尔曼方程转化为下一阶段最优决策的子问题，从而初始状态的最优决策可以由终状态的最优决策(一般易解)问题逐步迭代求解。存在某种形式的贝尔曼方程，是动态规划方法能得到最优解的必要条件。绝大多数可以用最优控制理论解决的问题，都可以通过构造合适的贝尔曼方程来求解。

基础知识

名词	解释
智能体	学习器与决策者的角色
环境	智能体之外一切组成的、与之交互的事物
动作	智能体的行为表征
状态	智能体从环境获取的信息
奖励	环境对于动作的反馈
策略	智能体根据状态进行下一步动作的函数
状态转移概率	智能体做出动作后进入下一状态的概率

RL考虑的是智能体（Agent）与环境（Environment）的交互问题：
RL的目标是找到一个最优策略，使智能体获得尽可能多的来自环境的奖励。例如赛车游戏，游戏场景是环境，赛车是智能体，赛车的位置是状态，对赛车的操作是动作，怎样操作赛车是策略，比赛得分是奖励。在论文中中常用观察(Observation)而不是环境，因为智能体不一定能得到环境的全部信息，只能得到自身周围的信息。
在这里插入图片描述

学习开始时往往采用随机策略进行实验得到一系列的状态、动作和奖励样本，算法根据样本改进策略，最大化奖励。由于奖励越来越大的特性，这种算法被称作强化学习。

马尔可夫决策过程 (Markov decision process, MDP)

强化学习的数学基础和建模工具是马尔可夫决策过程 (Markov decision process，MDP)
一个 MDP 通常由状态空间、动作空间、状态转移函数、奖励函数、折扣因子等组成。

回报(Return)

回报 (return) 是从当前时刻开始到本回合结束的所有奖励的总和，所以回报也叫做累计奖励 (cumulative future reward)。
把t时刻的回报记作随机变量 $U_t$ ,如果一回合游戏结束，已经观测到所有奖励，那么就把回报记作 $u_t$ ,设本回合在时刻n nn结束。定义回报为:
$U_t =R _t +R _{t+1}+R _{t+2}+R_{t+3}+...+R _n$

回报是未来获得的奖励总和，所以智能体的目标就是让回报尽量大，越大越好。强化学习的目标就是寻找一个策略，使得回报的期望最大化。这个策略称为最优策略 (optimum policy)。

折扣回报(Discounted Return)

在 MDP 中，通常使用折扣回报 (discounted return)，给未来的奖励做折扣。折扣回报的定义如下:
$G_t =R _t +γR _{t+1}+γ^2R _{t+2}+γ^3R_{t+3}+...$
这里的 $\gamma \in [0,1]$ 叫折扣率。对待越久远的未来，给奖励打的折扣越大。
$t$ 时刻当前状态 $s_t$ 和策略函数 $\pi(a|s)$ 选取动作 $a_t$ ,然后状态转移 $p_t(s'|s,a) = P(S'_{t+1}=s'|S_t=s,A_t=a)$ ,选取新的状态 $S'_{t+1}=s'$ ,奖励 $R_i$ 只依赖于 $S_i$ 和 $A_i$

State Value（状态价值函数）

首先我们采取一个以下的过程
在这里插入图片描述

$t$ , $t + 1$ :时间片段
$S_t$ :在时间 $t$ 下的状态
$A_t$ :在状态 $S_T$ 下采取的动作
$R_{t+1}$ :采取动作 $A_t$ 后获取到的奖励值
$S_{t+1}$ :采取动作 $A_t$ 后到达的状态

这样的一个动作持续下去：
在这里插入图片描述

我们通过马尔可夫过程，获得一个累计的折扣奖励：
$G_t =R _t +γR _{t+1}+γ^2R _{t+2}+γ^3R_{t+3}+...$
$\gamma \in [0,1]$

State Value是什么呢？
本质上就是 $G_t$ 的期望，即平均值，在状态 $S_t$ 下可以执行多不同的行为，从而产生多个轨迹 $G_t$ ,State Value就是这多个 $G_t$ 的平均值。
我们用 $v_{\pi}$ 代表State Value
在这里插入图片描述

以下是采取不同策略获得的State Value

在这里插入图片描述

贝尔曼方程的推导

我们将上方的 $G_t$ 的做一下修改;

在这里插入图片描述
可以看到我们将 $G_t$ 分为了两部分

然后我们将其带入到 $v_\pi(s)$ 中，可以看到 $v_\pi(s)$ 也被分为了两部分

在这里插入图片描述
下面我们做的就是分别来分析这两个公式，就可以得到贝尔曼方程

首先第一项是 $E[R_{t+1} | S_t=s]$
可以得到
在这里插入图片描述
解释：在状态s可以有多个action去执行，执行a的概率为 $\pi(a|s)$ ,然后我们在状态s下执行a，获得奖励r，我们将这多个action执行后获得的奖励求平均即可

本质上就是我们在状态s下执行各种action获得奖励的平均值,为及时奖励

我们再来看第二项
在这里插入图片描述
解释：通过马尔可夫的性质：下个状态只与当前状态信息有关,与更早之前的状态无关,即“无记忆性”，我们可以省去 $S_t=s$ ,因为 $E[G_{t+1} | S_{t+1}=s^‘]$ 就是下一个状态的 $v_{\pi}$ ，所以可以推导出以上公式
本质上是未来奖励