强化学习笔记（一）基本概念

文章目录

- 1. 强化学习 (Reinforcement Learning, RL) 概述
- - 1.1 与监督学习 (Supervised Learning, SL) 的对比
  - - 监督学习的特点:
    - 强化学习的特点:
- 2. 核心概念与术语
- - 2.1 策略 (Policy, π)
  - 2.2 价值函数 (Value Function)
  - 2.3 模型 (Model)
  - 2.4 回报 (Return, G)
  - 2.5 其他重要术语
- 3. 标准强化学习 vs. 深度强化学习
- - 3.1 标准强化学习 (Standard Reinforcement Learning)
  - - 核心交互循环:
  - 3.2 深度强化学习 (Deep Reinforcement Learning, DRL)
  - - 深度 Q 网络 (DQN) 损失函数:
    - 策略梯度 (Policy Gradient):
- 4. 序列决策 (Sequential Decision Making)
- - 4.1 奖励与回报
  - 4.2 可观测性 (Observability)
  - 4.3 马尔可夫决策过程 (MDP)
  - 4.4 交互过程的数学表示
- 5. 动作空间 (Action Space)
- - 5.1 离散动作空间 (Discrete Action Space)
  - 5.2 连续动作空间 (Continuous Action Space)
- 6. 智能体组成和分类 (Agent Components and Taxonomy)
- - 6.1 基于价值的智能体 (Value-Based Agents)
  - 6.2 基于策略的智能体 (Policy-Based Agents)
  - 6.3 演员-评论家智能体 (Actor-Critic Agents)
  - 6.4 有模型的智能体 (Model-Based Agents)
  - 6.5 免模型的智能体 (Model-Free Agents)
- 7. 探索和利用 (Exploration and Exploitation)
- - 7.1 探索 (Exploration)
  - 7.2 利用 (Exploitation)
  - 7.3 平衡策略
  - - 7.3.1 ε-贪婪策略 (ε-greedy)
    - 7.3.2 上置信界 (Upper Confidence Bound, UCB)
    - 7.3.3 基于概率匹配的探索 (Probability Matching / Thompson Sampling)
    - 7.3.4 好奇心驱动/内在激励 (Intrinsic Motivation / Curiosity-driven Exploration)
- 8. 关键词总结 (Keywords Summary)
- 9. 强化学习在大语言模型中的应用
- - 9.1 核心概念在LLM中的映射
  - - 9.1.1 智能体和策略
    - 9.1.2 状态和动作
    - 9.1.3 奖励机制
    - 9.1.4 价值评估
  - 9.2 RLHF中的关键算法
  - - 9.2.1 演员-评论家方法与PPO
    - 9.2.2 免模型方法
    - 9.2.3 深度强化学习的应用
  - 9.3 探索与学习机制
  - - 9.3.1 探索与利用的平衡
    - 9.3.2 马尔可夫决策过程在LLM中的应用
    - 9.3.3 折扣因子的意义
  - 9.4 RLHF优化流程总结

1. 强化学习 (Reinforcement Learning, RL) 概述

1.1 与监督学习 (Supervised Learning, SL) 的对比

监督学习的特点:

数据集: 监督学习依赖于固定的标记数据集，通常表示为 ${(x_i, y_i)}_{i=1}^n$ ，其中 $x_i$ 是输入， $y_i$ 是对应的标签。
数据独立同分布 (i.i.d): 训练样本之间通常假设是相互独立的，并且都从同一个固定的数据分布中抽取。
即时反馈与修正: 模型根据提供的标签（正确答案）立即修正其预测。有明确的"对"或"错"的指导。
目标函数: 通过最小化损失函数来学习一个映射 $\rightarrow y$ ，例如均方误差：
$\frac{1}{n} \sum_{i=1}^n (f(x_i) - y_i)^2$
- ${(x_i, y_i)}_{i=1}^n$ : 训练数据集，其中 $x_i$ 是输入样本， $y_i$ 是对应的标签， $i$ 是样本索引， $n$ 是样本总数
- $\rightarrow y$ : 从输入到输出的映射函数
- $\frac{1}{n} \sum_{i=1}^n (f(x_i) - y_i)^2$ : 均方误差损失函数，其中 $f(x_i)$ 是模型预测值， $y_i$ 是真实标签

强化学习的特点:

动态数据: 没有固定数据集，数据通过智能体与环境的交互生成，形式为 $s_t, a_t, r_{t+1}, s_{t+1})$ 。
延迟奖励 (Delayed Reward):
- 智能体执行一个动作后，可能不会立即知道这个动作是好是坏。
- 奖励可能是稀疏的，或者在序列的末尾才出现（例如，一盘棋的输赢）。
- 信用分配问题 (Credit Assignment Problem): 难以判断一个最终结果是由序列中的哪些具体动作贡献的。
非独立同分布数据:
- 智能体通过与环境交互产生数据，当前动作会影响下一个状态，因此数据点之间具有很强的时序关联性。
- 智能体的策略会随着学习过程改变，导致数据分布也会随之改变。
探索与利用的权衡 (Exploration vs. Exploitation):
- 智能体需要在"探索"未知动作以发现潜在更高奖励，和"利用"已知能产生较好奖励的动作之间做出权衡。
智能体主动学习:
- 智能体不是被动接收数据，而是通过"试错"主动与环境交互来学习。它自己决定采取什么动作。
序列决策 (Sequential Decision Making):
- 智能体的目标通常是最大化一个（可能很长的）动作序列的累积奖励，而不仅仅是单个动作的即时奖励。
目标函数: 最大化期望累积奖励：
$J(\pi) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R_{t+1} \right]$ : 策略 $\pi$ 的目标函数（期望累积奖励）
- $\mathbb{E}_\pi$ : 在策略 $\pi$ 下的期望值
- $\gamma$ : 折扣因子，取值范围 $[0, 1)$
- $R_{t+1}$ : 在时间步 $t$ 执行动作后获得的奖励
- $t$ : 时间步索引
  其中 $\gamma \in [0, 1)$ 是折扣因子， $R_{t+1}$ 是时间步 $t$ 采取动作后的奖励。

2. 核心概念与术语

智能体 (Agent): 学习者和决策者，执行动作。
环境 (Environment): 智能体外部的一切，智能体与之交互，并对其动作做出响应。
状态 (State, S): 对环境特定时刻的描述，是智能体做决策的依据。
动作 (Action, A): 智能体在特定状态下可以执行的操作。
奖励 (Reward, R):
- 环境在智能体执行动作后给予的标量反馈信号，表示该动作的即时好坏。
- 即时奖励: $R_{t+1}$ ，在时间步 $t$ 采取动作 $a_t$ 后环境反馈的标量值。

2.1 策略 (Policy, π)

智能体在给定状态下选择动作的规则或函数。
随机性策略 (Stochastic Policy): $\pi(a|s) = P(A_t=a | S_t=s)$ ，表示在状态 $s$ 下选择动作 $a$ 的概率。
确定性策略 (Deterministic Policy): $\mu(s)$ ，直接映射状态到动作。

2.2 价值函数 (Value Function)

评估一个状态或状态-动作对的长期价值。
状态价值函数 (State-Value Function):
$V^\pi(s) = \mathbb{E}_\pi [ G_t | S_t = s ] = \mathbb{E}_\pi[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s]$
表示在状态 $s$ 下遵循策略 $\pi$ 的期望回报。
- $G_t$ : 从时间步 $t$ 开始的折扣累积奖励（回报）
动作价值函数 (Action-Value Function):
$Q^\pi(s, a) = \mathbb{E}_\pi [ G_t | S_t = s, A_t = a ] = \mathbb{E}_\pi[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a]$
表示在状态 $s$ 下执行动作 $a$ 后的期望回报。也称为 Q-函数。

2.3 模型 (Model)

智能体对环境的内部表示，预测环境将如何响应。
状态转移模型 (Transition Model): $P(s'|s, a) = P(S_{t+1} = s' | S_t = s, A_t = a)$ ，预测在状态 $s$ 执行动作 $a$ 后，转移到下一个状态 $s^{'}$ 的概率。
奖励模型 (Reward Model): $\mathbb{E} [R_{t+1} | S_t = s, A_t = a]$ ，预测在状态 $s$ 执行动作 $a$ 后获得的期望奖励。

2.4 回报 (Return, G)

折扣回报 (Discounted Return):
$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^\infty \gamma^k R_{t+k+1}$
衡量从时刻 $t$ 开始的长期累积奖励。
折扣因子 (Discount Factor, γ): $\leq \gamma \leq 1$
- $\gamma$ 接近 0 时，智能体更关注近期奖励（“近视”）。
- $\gamma$ 接近 1 时，智能体更关注远期奖励（“有远见”）。
- 也确保了在无限循环任务中回报是有限的。

2.5 其他重要术语

轨迹 (Trajectory) / 经验 (Experience) / 历史 (History): 一个状态、动作、奖励的序列： $\tau = (S_0, A_0, R_1, S_1, A_1, R_2, ...)$
回合 (Episode) / 试验 (Trial) / 预演 (Rollout): 从初始状态开始，到终止状态结束的一条完整轨迹。适用于有明确结束的任务（Episodic Tasks）。
动作序列 (Action Sequence): 轨迹中包含的一系列动作 $A_0, A_1, A_2, ...)$ 。

3. 标准强化学习 vs. 深度强化学习

3.1 标准强化学习 (Standard Reinforcement Learning)

通常处理状态空间和动作空间较小的问题。
策略和价值函数可以用表格形式表示（例如，Q-table）。
算法如：Q-Learning, Sarsa, 动态规划 (DP)。
Q-learning 更新规则:
$\leftarrow Q(s,a) + \alpha[r + \gamma \max_{a'} Q(s',a') - Q(s,a)]$
其中 $\alpha$ 是学习率， $r$ 是即时奖励， $\gamma$ 是折扣因子。

核心交互循环:

在时刻 $t$ ，智能体观察到环境的状态 $S_t$ (或观测 $O_t$ )。
基于状态 $S_t$ ，智能体根据其策略 $\pi$ 选择并执行一个动作 $A_t$ 。
环境接收到动作 $A_t$ ，转移到新的状态 $S_{t+1}$ ，并给予智能体一个即时奖励 $R_{t+1}$ 。
智能体利用这些信息 $S_t, A_t, R_{t+1}, S_{t+1})$ 来学习和改进其策略，循环往复。

3.2 深度强化学习 (Deep Reinforcement Learning, DRL)

当状态空间或动作空间非常大，甚至连续时，表格方法不可行。
使用深度神经网络 (Deep Neural Networks, DNNs) 作为函数逼近器来表示策略、价值函数或模型。
例如，用神经网络输入状态，输出每个动作的Q值 (DQN)，或直接输出动作的概率分布 (Policy Gradients)。
能够处理高维输入，如图像 (Atari 游戏)、文本。
算法如：DQN, DDPG, A3C, PPO, TRPO。

深度 Q 网络 (DQN) 损失函数:

$\mathcal{L} = \mathbb{E} \left[ \left( r + \gamma \max_{a'} Q(s', a'; \theta^-) - Q(s, a; \theta) \right)^2 \right]$
其中 $\theta$ 是当前网络参数， $\theta^-$ 是目标网络参数。

策略梯度 (Policy Gradient):

$\nabla_\theta J(\theta) = \mathbb{E} \left[ \nabla_\theta \log \pi_\theta(a|s) \cdot A(s, a) \right]$
其中 $A (s, a)$ 是优势函数，用于处理连续动作空间和高维输入。

4. 序列决策 (Sequential Decision Making)

4.1 奖励与回报

奖励假设 (Reward Hypothesis): 强化学习中的所有目标都可以被描述为最大化期望累积奖励。
近期奖励 vs 远期奖励的权衡: 智能体的目标是最大化从当前时刻开始的未来累积奖励（也称为回报 Return, G），而不仅仅是即时奖励。

4.2 可观测性 (Observability)

完全可观测 (Fully Observable): 智能体可以直接观测到环境的真实状态 $S_t$ 。这类问题通常用马尔可夫决策过程 (Markov Decision Process, MDP) 来建模。
- 马尔可夫性质: 当前状态 $S_t$ 包含了所有与未来决策相关的历史信息，即 $P(S_{t+1} | S_t, A_t, S_{t-1}, A_{t-1}, ...) = P(S_{t+1} | S_t, A_t)$ 。
部分可观测 (Partially Observable): 智能体只能得到环境的部分信息，即观测 $O_t$ ， $O_t \neq S_t$ 。观测可能包含噪声或不完整。这类问题通常用部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP) 来建模。
- 观测模型: $O(o | s, a) = P(O_t = o | S_t = s, A_{t-1} = a)$ ，描述部分可观测性。
- 信念状态: $P(S_t = s | o_1, a_1, \dots, o_t, a_t)$ ，根据观测历史估计状态。

4.3 马尔可夫决策过程 (MDP)

状态转移概率: $P(s' | s, a) = P(S_{t+1} = s' | S_t = s, A_t = a)$ 。
奖励函数: $\mathbb{E} [R_{t+1} | S_t = s, A_t = a]$ 。
贝尔曼方程:
- 状态价值： $V^\pi(s) = \sum_a \pi(a|s) \sum_{s', r} P(s', r | s, a) \left[ r + \gamma V^\pi(s') \right]$ 。
- 动作价值： $Q^\pi(s, a) = \sum_{s', r} P(s', r | s, a) \left[ r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') \right]$ 。

4.4 交互过程的数学表示

智能体在 $t$ 时刻观察到状态 $O_t$ (观测)，执行动作 $A_t$ ，环境反馈奖励 $R_{t+1}$ 和下一个状态 $S_{t+1}$ (或观测 $O_{t+1}$ )。
$S_t \rightarrow A_t \rightarrow R_{t+1}, S_{t+1}$ (对于完全可观测环境)
$O_t \rightarrow A_t \rightarrow R_{t+1}, O_{t+1}$ (对于部分可观测环境)

5. 动作空间 (Action Space)

5.1 离散动作空间 (Discrete Action Space)

动作的数量是有限的、可数的。
动作集合: $\mathcal{A} = \{a_1, a_2, \dots, a_n\}$ ，有限动作的概率分布： $\pi(a|s)$ 。
例如：在游戏中按"上、下、左、右"；在棋类游戏中选择棋子和落点。

5.2 连续动作空间 (Continuous Action Space)

动作是实值向量，每个维度可以取一定范围内的连续值。
动作集合: $\mathcal{A} \subseteq \mathbb{R}^d$ ，策略通常建模为概率密度，例如高斯分布：
$\pi(a|s) = \mathcal{N}(a | \mu(s), \sigma^2)$
其中 $\mu(s)$ 是均值， $\sigma^2$ 是方差。
例如：机器人控制中关节的角度或力矩；自动驾驶中方向盘转角、油门大小。

6. 智能体组成和分类 (Agent Components and Taxonomy)

6.1 基于价值的智能体 (Value-Based Agents)

显式学习价值函数 (通常是 Q 函数)。
策略是隐式的，通常通过选择具有最高价值的动作来导出（例如，贪心策略 w.r.t. Q-values）。
例子: Q-Learning, DQN, Sarsa。

6.2 基于策略的智能体 (Policy-Based Agents)

直接学习策略函数 $\pi(a|s)$ ，而不需要学习价值函数。
可以直接处理连续动作空间。
例子: REINFORCE, A2C (Actor-Critic 中的 Actor 部分)。

6.3 演员-评论家智能体 (Actor-Critic Agents)

结合了基于价值和基于策略的方法。
演员 (Actor): 学习策略 (Policy)，负责选择动作。
评论家 (Critic): 学习价值函数 (Value Function)，负责评估演员选择的动作的好坏，并指导演员的更新。
演员更新: $\nabla_\theta J(\theta) = \mathbb{E} \left[ \nabla_\theta \log \pi_\theta(a|s) \cdot Q(s, a) \right]$ 。
评论家更新: 最小化误差： $\mathcal{L} = \left( Q(s, a) - (r + \gamma V(s')) \right)^2$
例子: A2C (Advantage Actor-Critic), A3C (Asynchronous Advantage Actor-Critic), DDPG, PPO.

6.4 有模型的智能体 (Model-Based Agents)

显式地学习环境的模型。
学习到模型后，可以通过模型进行规划（例如，通过模拟未来的轨迹来选择最优动作），或者生成模拟经验来辅助学习。
优点：可能样本效率更高。
缺点：学习一个准确的模型本身可能很困难；如果模型不准确，可能导致次优策略（模型误差累积）。
例子: Dyna-Q。

6.5 免模型的智能体 (Model-Free Agents)

不尝试学习环境的模型。
直接从与环境交互的经验中学习策略或价值函数。
优点：实现相对简单，可以直接应用于模型未知的环境。
缺点：通常需要大量的经验数据，样本效率可能较低。
大多数流行的深度强化学习算法（如 DQN, PPO, A3C）都是免模型的。

7. 探索和利用 (Exploration and Exploitation)

这是强化学习中的一个基本困境。

7.1 探索 (Exploration)

尝试新的、未充分评估的动作，以期发现可能带来更高奖励的路径或策略。
目的是获取更多关于环境的信息，避免陷入局部最优。
可能导致短期内的次优选择。

7.2 利用 (Exploitation)

根据当前已有的知识，选择已知能带来最高（期望）奖励的动作。
目的是最大化当前的表现。
可能错过更好的未知选择。

7.3 平衡策略

7.3.1 ε-贪婪策略 (ε-greedy)

以 $1-\varepsilon$ 的概率选择当前估计最优的动作（利用）。
以 $\varepsilon$ 的概率随机选择一个动作（探索）。
$\varepsilon$ 的值可以随着训练的进行而逐渐减小。
动作选择:
$\begin{cases} \text{random action} & \text{with probability } \epsilon \\ \arg\max_a Q(s, a) & \text{with probability } 1 - \epsilon \end{cases}$

7.3.2 上置信界 (Upper Confidence Bound, UCB)

选择动作时，不仅考虑其估计价值，还考虑其不确定性。优先选择那些估计价值高或不确定性大的动作。
动作选择:
$\arg\max_a \left[ Q(s, a) + c \sqrt{\frac{\ln N(s)}{N(s, a)}} \right]$
其中 $N (s)$ 是状态访问次数， $N (s, a)$ 是动作选择次数， $c$ 是探索参数。

7.3.3 基于概率匹配的探索 (Probability Matching / Thompson Sampling)

假设每个动作的价值服从某个概率分布，根据这些分布采样来选择动作。

7.3.4 好奇心驱动/内在激励 (Intrinsic Motivation / Curiosity-driven Exploration)

为智能体引入额外的"好奇心"奖励，鼓励其探索新奇的状态或环境动态难以预测的部分。

8. 关键词总结 (Keywords Summary)

强化学习 (Reinforcement Learning, RL)
智能体 (Agent)
环境 (Environment)
状态 (State, S)
动作 (Action, A)
奖励 (Reward, R)
策略 (Policy, π) (随机性/确定性)
价值函数 (Value Function) (V(s), Q(s,a))
模型 (Model) (状态转移, 奖励模型)
马尔可夫决策过程 (Markov Decision Process, MDP)
部分可观测马尔可夫决策过程 (POMDP)
回报 (Return, Gt)
折扣因子 (Discount Factor, γ)
轨迹 (Trajectory) / 回合 (Episode)
探索与利用 (Exploration vs. Exploitation) (ε-greedy, UCB)
基于价值 (Value-Based) (Q-Learning, DQN)
基于策略 (Policy-Based) (REINFORCE)
演员-评论家 (Actor-Critic) (A2C, A3C, PPO, DDPG)
有模型 (Model-Based)
免模型 (Model-Free)
深度强化学习 (Deep Reinforcement Learning, DRL)
信用分配问题 (Credit Assignment Problem)
延迟奖励 (Delayed Reward)
动作空间 (Action Space) (离散/连续)

9. 强化学习在大语言模型中的应用

9.1 核心概念在LLM中的映射

9.1.1 智能体和策略

智能体 (Agent) / 策略 (Policy, π):

在LLM语境下: LLM本身就是智能体，其参数定义了策略。策略决定了在给定当前文本序列（状态）的条件下，选择下一个词元（token/动作）的概率分布 $\pi(\text{下一个词元} | \text{当前文本序列})$ 。
重点关注:
- LLM如何作为策略网络被优化。
- 理解随机性策略（通过采样，如温度、top-k, top-p）和确定性策略的含义，尽管在生成任务中通常使用随机策略进行探索。
- 数学公式相关: $\pi(a|s) = P(A_t=a | S_t=s)$ (随机策略) 和策略梯度 $\nabla_\theta J(\theta)=\mathbb{E}[\nabla_\theta\log\pi_\theta(a|s)\cdot A(s,a)]$ (策略更新的核心)。

9.1.2 状态和动作

状态 (State, S) / 动作 (Action, A) / 轨迹 (Trajectory) / 回合 (Episode):

在LLM语境下:
- 状态 (S): 当前已经生成的文本序列（或其在LLM中的内部表示）。
- 动作 (A): LLM选择生成的下一个词元（token）。
- 动作空间: 整个词汇表（vocabulary）的大小，通常是一个非常巨大的离散动作空间（数万到数十万个可能的动作）。
- 轨迹/回合 (τ/Episode): 从一个初始提示（prompt）开始，LLM生成的一整个文本序列，直到遇到结束符或达到最大长度。

9.1.3 奖励机制

奖励 (Reward, R) / 回报 (Return, G_t):

在LLM语境下: 这是RLHF的核心。奖励通常不是环境直接给出的，而是由一个独立的奖励模型 (Reward Model, RM) 给出。这个RM本身是根据人类偏好数据训练的监督学习模型，它评估LLM生成的文本序列的质量（例如，有用性、无害性、真实性）。
重点关注:
- 奖励模型的设计和训练。
- 如何定义一个好的奖励信号来引导LLM生成期望的输出。
- 延迟奖励/信用分配问题: 一个完整的生成文本可能在末尾才获得一个总的奖励，如何将这个奖励合理分配给序列中的每一个词元选择（动作）是一个挑战，尽管在实践中通常对整个序列评分。
- 数学公式相关: $G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$ (回报定义) 和奖励函数 $R (s, a)$ (虽然在LLM中通常是 $R(\text{整个序列})$ ）。

9.1.4 价值评估

价值函数 (Value Function, V(s), Q(s,a)):

在LLM语境下: 尤其在Actor-Critic方法（如PPO）中，价值函数（通常是状态价值函数 $V (s)$ ）被用来估计当前状态（文本序列）的期望回报。它可以帮助减少策略梯度的方差，稳定训练。这个价值函数（也叫Critic）通常也是一个独立的神经网络。
重点关注:
- 价值函数如何辅助策略学习（例如，在优势函数 $A (s, a) = Q (s, a) - V (s)$ 或 $\gamma V(s') - V(s)$ 中的作用）。
- Critic网络的训练目标（例如，最小化TD误差）。
- 数学公式相关: $V^\pi(s)$ 和 $Q^\pi(s,a)$ 的定义，贝尔曼方程，以及DQN损失函数中的目标值 $\gamma \max_{a'} Q(s',a'; \theta^-)$ （理解其思想，即使DQN本身不直接用于LLM生成）。

9.2 RLHF中的关键算法

9.2.1 演员-评论家方法与PPO

演员-评论家 (Actor-Critic) 方法 (特别是PPO):

在LLM语境下: PPO (Proximal Policy Optimization) 是目前微调LLM最主流和最成功的RL算法。LLM是Actor（策略），另外还会有一个Critic（价值函数）。
重点关注:
- PPO的核心思想：如何通过限制策略更新的幅度（clipping）来保证训练的稳定性。
- Actor（LLM/Policy）和Critic（Value Network）的交互和各自的更新规则。
- 数学公式相关: PPO的Clipped Surrogate Objective Function:
  $L^{CLIP}(\theta) = \mathbb{E}_t\left[\min\left(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right]$
  其中 $r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$ 是重要性采样比率。

9.2.2 免模型方法

免模型 (Model-Free) 方法:

在LLM语境下: RLHF通常采用免模型方法。这意味着我们不尝试去学习环境的完整动态模型（即给定当前文本和下一个词元，下一个状态和奖励的精确概率分布）。我们直接学习策略（LLM本身）和/或价值函数。
重点关注: 理解为什么对于复杂的LLM和文本生成任务，免模型方法更实用。

9.2.3 深度强化学习的应用

深度强化学习 (Deep Reinforcement Learning, DRL):

在LLM语境下: LLM本身就是深度神经网络，所以这自然是DRL的应用。策略网络和价值网络（如果使用）都是深度模型。
重点关注: 神经网络如何作为函数逼近器来表示策略和价值函数。

9.3 探索与学习机制

9.3.1 探索与利用的平衡

探索与利用 (Exploration vs. Exploitation):

在LLM语境下:
- 探索: LLM生成多样化的、可能不是当前最优但有潜力的文本。这可以通过在策略（LLM的输出概率分布）中引入随机性（例如，采样温度）来实现。
- 利用: LLM生成当前已知能够获得高奖励的文本。
重点关注: 虽然不像传统RL那样有明确的ε-greedy等机制，但理解LLM的采样策略（temperature, top-p, top-k）如何隐式地平衡探索和利用是重要的。RL的优化过程会逐渐引导LLM"利用"更高奖励的生成模式。

9.3.2 马尔可夫决策过程在LLM中的应用

马尔可夫决策过程 (Markov Decision Process, MDP):

在LLM语境下: 文本生成过程可以被近似地建模为一个MDP，其中当前状态（已生成的文本）包含了做出下一个决策（选择下一个词元）所需的所有信息。
重点关注: 理解MDP的基本框架如何应用于序列决策问题。

9.3.3 折扣因子的意义

折扣因子 (Discount Factor, γ):

在LLM语境下: 用于平衡即时奖励和未来奖励的重要性。在文本生成中，如果奖励主要在序列末尾给出，折扣因子的影响可能不如在每一步都有密集奖励的任务中那么直接，但概念仍然重要。

9.4 RLHF优化流程总结

RLHF的核心流程:

预训练LLM: 通过自监督学习，LLM学习语言建模能力
奖励模型训练: 基于人类偏好数据训练奖励模型
RL优化: 使用PPO等算法，根据奖励模型提供的反馈优化LLM

关键优化目标:

最大化期望累积奖励 $J(\pi) = \mathbb{E}_\pi [ \sum_{t=0}^{\infty} \gamma^t R_{t+1} ]$ 。LLM ( $\pi$ ) 是要优化的对象。
奖励 $R$ 来自于一个独立的奖励模型，而不是环境本身。
LLM的输出概率分布 $\pi_\theta(a|s)$ 就是策略。 $a$ 是词汇表中的一个词元， $s$ 是之前的词元序列。
数据流: 智能体(LLM)生成一个轨迹(文本序列)，奖励模型评估这个轨迹给出奖励，然后PPO算法根据这个奖励更新LLM的参数 $\theta$ 和Critic的参数。