【强化学习基础】强化学习的基本概念：状态、动作、智能体、策略、奖励、状态转移、轨迹、回报、价值函数

news2026/2/4 18:57:19

1.状态（State）
2.动作（Action）
3.智能体（Agent）
4.策略（Policy）
5.奖励（Reward）
6.状态转移（State transition）
7.智能体与环境交互（Interacts with the environment）
8.强化学习随机性的两个来源（Randomness in RL）
- 8.1.动作具有随机性（Actions have randomness）
- 8.2.状态转移具有随机性（State transition have randomness）
9.轨迹（Trajectory）
10.回报（Return）和折扣回报（Discounted return）
11.价值函数（Value Function）
- 11.1.动作价值函数（Action-Value Function）
- 11.2.状态价值函数（State-Value Function）

1.状态（State）

超级玛丽游戏中，观测到的这一帧画面就是一个 状态（State）。
在这里插入图片描述

2.动作（Action）

玛丽做的动作：向左、向右、向上即为 动作（Action）。
在这里插入图片描述

动作是由谁做的，谁就是 智能体（Agent）。自动驾驶中，汽车就是智能体；机器人控制中，机器人就是智能体；超级玛丽游戏中，玛丽就是智能体。

策略（ Policy $\pi$ ）的含义就是，根据观测到的状态，做出动作的方案， $\pi(a|s)$ 的含义是在状态 $s$ 是采取动作 $a$ 的概率密度函数PDF。
在这里插入图片描述

强化学习的目标就是尽可能的获得更多的 奖励（Reward）。
在这里插入图片描述

当智能体做出一个动作，状态会发生变化（从旧的状态变成新的状态）。我们就可以说状态发生的转移。状态转移可以是确定的，也可以是随机的。
在这里插入图片描述
状态转移函数 $p (s^{'} ∣ s, a)$ 的公式：

$a)=\mathbb{P}(S' = s' | S=s, A=a)$

含义为： $p (s^{'} ∣ s, a)$ 表示在状态 $s$ 时，采取动作 $a$ ，跳转到新的状态 $s^{'}$ 的概率。

步骤一： 智能体观测到环境的状态 $s_t$ ，然后做出动作 $a_t$
在这里插入图片描述
步骤二： 由于智能体做出了动作 $a_t$ ，环境的状态发生了变化，变成了 $s_{t+1}$ ；同时由于智能体做出的动作 $a_t$ ，获得了一个奖励 $r_t$ 。

在这里插入图片描述
假定当前状态为 $s$ ，采取的动作 $a$ 具有随机性，可能采取向左的动作，可能采取向右的动作，可能采取向上的动作。

在这里插入图片描述
假定当前状态为 $s$ ，采取的动作为 $a$ ，环境会跳转到下一个状态 $s^{'}$ 。状态从 $s$ 到 $s^{'}$ 的转移具有随机性。

由状态 $s t a t e$ 、动作 $a c t i o n$ 、奖励 $re w a r d$ 组成的一个序列，成为轨迹（trajectory）。
在这里插入图片描述

回报： 指未来的累计奖励。从t时刻的开始一直到游戏结束，把未来的奖励加起来称之为回报。注意：由于t时刻游戏还没有结束， $R_t、R_{t+1}、R_{t+2}$ 等奖励，都是随机变量，不是具体的数值。

在这里插入图片描述
折扣率： $\gamma$
折扣回报： 带折扣率的回报。

为什么回报具有随机性？

1）动作是随机的（状态为 $s$ 时，采取的动作 $a$ 具有随机性）：
$\mathbb{P}=[A=a | S=s] = \pi(a|s)$
2）状态转移是随机的（状态 $s$ 时采取了动作 $a$ ，跳转到下一个状态 $s^{'}$ ，从状态 $s$ 到状态 $s^{'}$ 具有随机性）:
$\mathbb{P}=[S' = s'| S=s, A=a] =p(s'|s, a)$