1.马尔可夫决策过程MDP

1.1 MDP五元组

$MDP=<\mathcal{S},\mathcal{A},\mathcal{P},\mathcal{R},\mathcal{\gamma}>$ ，其中：

$\mathcal{S}$ ：状态空间
$\mathcal{A}$ ：动作空间
$\mathcal{P}$ ： $\mathcal{P(s'|s,a)}$ 为状态转移函数，表示采取动作 $a$ 从状态 $s$ 转移到状态 $s^{'}$ 的概率
$\mathcal{R}$ ：奖励函数 $\mathcal{R(s,a)}$ ，表示在状态 $s$ 下采取动作 $a$ 后的奖励。
$\mathcal{\gamma}$ ：折扣因子 $\gamma \in [0,1)$ ，取值越大越注重长期积累的奖励。

MDP与MRP的区分
MDP与马尔可夫奖励过程 $MRP=<\mathcal{S},\mathcal{P},\mathcal{r},\mathcal{\gamma}>$ 的区别在于状态转移和奖励函数不依赖于动作 $a$ 。举例：船在海上自由飘荡是一个MRP，船由水手掌舵在海上航行是一个MDP。

1.2 Agent与MDP环境的交互

在这里插入图片描述
Agent通过 $r_t$ 学习策略，agent通过学习到的策略针对当前环境状态 $s_t$ 采取相应动作 $a_t$ ，该动作与环境交互后，环境中的状态将转移到新的状态 $s_{t+1}$ ，同时获得奖励 $r_{t+1}$ 。Agent的目标是最大化累积奖励的期望。

1.2.1 策略policy

策略用 $\pi$ 表示，策略是一个函数，是agent学习的目标。策略会输出在状态 $s$ 下采取各个action的概率，即 $\pi(a|s)=P(A_t=a|S_t=s)$ .

1.2.2 状态价值函数 $V (s)$

$V^\pi(s)$ 表示从状态 $s$ 出发，采取策略 $\pi$ 获得回报的期望，即
$V^\pi(s) = E_\pi[G_t|S_t=s]$

1.2.3 动作价值函数Q(a|s)

$Q^\pi(a|s)$ 表示MDP遵循策略 $\pi$ ，在状态 $s$ 下采取动作 $a$ 后得到回报的期望，即：
$Q^\pi(a|s)= E_\pi[G_t|S_t=s,A_t=a]$

$V^\pi(s)$ 与 $Q^\pi(a|s)$ 的关系？
使用策略 $\pi$ ， $V^\pi(s)$ 为采取动作 $a$ 的概率乘在状态 $s$ 下采取动作 $a$ 的动作价值的累加和，即：
$V^\pi(s)=\sum_{a\in \mathcal{A}}\pi(a|s)Q^\pi(a|s)$