文章目录
- 1. 强化学习 (Reinforcement Learning, RL) 概述
- 1.1 与监督学习 (Supervised Learning, SL) 的对比
- 监督学习的特点:
- 强化学习的特点:
- 2. 核心概念与术语
- 2.1 策略 (Policy, π)
- 2.2 价值函数 (Value Function)
- 2.3 模型 (Model)
- 2.4 回报 (Return, G)
- 2.5 其他重要术语
- 3. 标准强化学习 vs. 深度强化学习
- 3.1 标准强化学习 (Standard Reinforcement Learning)
- 核心交互循环:
- 3.2 深度强化学习 (Deep Reinforcement Learning, DRL)
- 深度 Q 网络 (DQN) 损失函数:
- 策略梯度 (Policy Gradient):
- 4. 序列决策 (Sequential Decision Making)
- 4.1 奖励与回报
- 4.2 可观测性 (Observability)
- 4.3 马尔可夫决策过程 (MDP)
- 4.4 交互过程的数学表示
- 5. 动作空间 (Action Space)
- 5.1 离散动作空间 (Discrete Action Space)
- 5.2 连续动作空间 (Continuous Action Space)
- 6. 智能体组成和分类 (Agent Components and Taxonomy)
- 6.1 基于价值的智能体 (Value-Based Agents)
- 6.2 基于策略的智能体 (Policy-Based Agents)
- 6.3 演员-评论家智能体 (Actor-Critic Agents)
- 6.4 有模型的智能体 (Model-Based Agents)
- 6.5 免模型的智能体 (Model-Free Agents)
- 7. 探索和利用 (Exploration and Exploitation)
- 7.1 探索 (Exploration)
- 7.2 利用 (Exploitation)
- 7.3 平衡策略
- 7.3.1 ε-贪婪策略 (ε-greedy)
- 7.3.2 上置信界 (Upper Confidence Bound, UCB)
- 7.3.3 基于概率匹配的探索 (Probability Matching / Thompson Sampling)
- 7.3.4 好奇心驱动/内在激励 (Intrinsic Motivation / Curiosity-driven Exploration)
- 8. 关键词总结 (Keywords Summary)
- 9. 强化学习在大语言模型中的应用
- 9.1 核心概念在LLM中的映射
- 9.1.1 智能体和策略
- 9.1.2 状态和动作
- 9.1.3 奖励机制
- 9.1.4 价值评估
- 9.2 RLHF中的关键算法
- 9.2.1 演员-评论家方法与PPO
- 9.2.2 免模型方法
- 9.2.3 深度强化学习的应用
- 9.3 探索与学习机制
- 9.3.1 探索与利用的平衡
- 9.3.2 马尔可夫决策过程在LLM中的应用
- 9.3.3 折扣因子的意义
- 9.4 RLHF优化流程总结
1. 强化学习 (Reinforcement Learning, RL) 概述
1.1 与监督学习 (Supervised Learning, SL) 的对比
监督学习的特点:
- 数据集: 监督学习依赖于固定的标记数据集,通常表示为 ( x i , y i ) i = 1 n {(x_i, y_i)}_{i=1}^n (xi,yi)i=1n,其中 x i x_i xi 是输入, y i y_i yi 是对应的标签。
- 数据独立同分布 (i.i.d): 训练样本之间通常假设是相互独立的,并且都从同一个固定的数据分布中抽取。
- 即时反馈与修正: 模型根据提供的标签(正确答案)立即修正其预测。有明确的"对"或"错"的指导。
- 目标函数: 通过最小化损失函数来学习一个映射
f
:
x
→
y
f: x \rightarrow y
f:x→y,例如均方误差:
L = 1 n ∑ i = 1 n ( f ( x i ) − y i ) 2 L = \frac{1}{n} \sum_{i=1}^n (f(x_i) - y_i)^2 L=n1∑i=1n(f(xi)−yi)2- ( x i , y i ) i = 1 n {(x_i, y_i)}_{i=1}^n (xi,yi)i=1n: 训练数据集,其中 x i x_i xi是输入样本, y i y_i yi是对应的标签, i i i是样本索引, n n n是样本总数
- f : x → y f: x \rightarrow y f:x→y: 从输入到输出的映射函数
- L = 1 n ∑ i = 1 n ( f ( x i ) − y i ) 2 L = \frac{1}{n} \sum_{i=1}^n (f(x_i) - y_i)^2 L=n1∑i=1n(f(xi)−yi)2: 均方误差损失函数,其中 f ( x i ) f(x_i) f(xi)是模型预测值, y i y_i yi是真实标签
强化学习的特点:
- 动态数据: 没有固定数据集,数据通过智能体与环境的交互生成,形式为 ( s t , a t , r t + 1 , s t + 1 ) (s_t, a_t, r_{t+1}, s_{t+1}) (st,at,rt+1,st+1)。
- 延迟奖励 (Delayed Reward):
- 智能体执行一个动作后,可能不会立即知道这个动作是好是坏。
- 奖励可能是稀疏的,或者在序列的末尾才出现(例如,一盘棋的输赢)。
- 信用分配问题 (Credit Assignment Problem): 难以判断一个最终结果是由序列中的哪些具体动作贡献的。
- 非独立同分布数据:
- 智能体通过与环境交互产生数据,当前动作会影响下一个状态,因此数据点之间具有很强的时序关联性。
- 智能体的策略会随着学习过程改变,导致数据分布也会随之改变。
- 探索与利用的权衡 (Exploration vs. Exploitation):
- 智能体需要在"探索"未知动作以发现潜在更高奖励,和"利用"已知能产生较好奖励的动作之间做出权衡。
- 智能体主动学习:
- 智能体不是被动接收数据,而是通过"试错"主动与环境交互来学习。它自己决定采取什么动作。
- 序列决策 (Sequential Decision Making):
- 智能体的目标通常是最大化一个(可能很长的)动作序列的累积奖励,而不仅仅是单个动作的即时奖励。
- 目标函数: 最大化期望累积奖励:
-
J
(
π
)
=
E
π
[
∑
t
=
0
∞
γ
t
R
t
+
1
]
J(\pi) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R_{t+1} \right]
J(π)=Eπ[∑t=0∞γtRt+1]: 策略
π
\pi
π的目标函数(期望累积奖励)
- E π \mathbb{E}_\pi Eπ: 在策略 π \pi π下的期望值
- γ \gamma γ: 折扣因子,取值范围 [ 0 , 1 ) [0,1) [0,1)
- R t + 1 R_{t+1} Rt+1: 在时间步 t t t执行动作后获得的奖励
-
t
t
t: 时间步索引
其中 γ ∈ [ 0 , 1 ) \gamma \in [0, 1) γ∈[0,1) 是折扣因子, R t + 1 R_{t+1} Rt+1 是时间步 t t t 采取动作后的奖励。
2. 核心概念与术语
- 智能体 (Agent): 学习者和决策者,执行动作。
- 环境 (Environment): 智能体外部的一切,智能体与之交互,并对其动作做出响应。
- 状态 (State, S): 对环境特定时刻的描述,是智能体做决策的依据。
- 动作 (Action, A): 智能体在特定状态下可以执行的操作。
- 奖励 (Reward, R):
- 环境在智能体执行动作后给予的标量反馈信号,表示该动作的即时好坏。
- 即时奖励: R t + 1 R_{t+1} Rt+1,在时间步 t t t 采取动作 a t a_t at 后环境反馈的标量值。
2.1 策略 (Policy, π)
- 智能体在给定状态下选择动作的规则或函数。
- 随机性策略 (Stochastic Policy): π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t=a | S_t=s) π(a∣s)=P(At=a∣St=s),表示在状态 s s s 下选择动作 a a a 的概率。
- 确定性策略 (Deterministic Policy): a = μ ( s ) a = \mu(s) a=μ(s),直接映射状态到动作。
2.2 价值函数 (Value Function)
- 评估一个状态或状态-动作对的长期价值。
- 状态价值函数 (State-Value Function):
V π ( s ) = E π [ G t ∣ S t = s ] = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] V^\pi(s) = \mathbb{E}_\pi [ G_t | S_t = s ] = \mathbb{E}_\pi[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s] Vπ(s)=Eπ[Gt∣St=s]=Eπ[∑k=0∞γkRt+k+1∣St=s]
表示在状态 s s s 下遵循策略 π \pi π 的期望回报。- G t G_t Gt: 从时间步 t t t开始的折扣累积奖励(回报)
- 动作价值函数 (Action-Value Function):
Q π ( s , a ) = E π [ G t ∣ S t = s , A t = a ] = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] Q^\pi(s, a) = \mathbb{E}_\pi [ G_t | S_t = s, A_t = a ] = \mathbb{E}_\pi[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a] Qπ(s,a)=Eπ[Gt∣St=s,At=a]=Eπ[∑k=0∞γkRt+k+1∣St=s,At=a]
表示在状态 s s s 下执行动作 a a a 后的期望回报。也称为 Q-函数。
2.3 模型 (Model)
- 智能体对环境的内部表示,预测环境将如何响应。
- 状态转移模型 (Transition Model): P ( s ′ ∣ s , a ) = P ( S t + 1 = s ′ ∣ S t = s , A t = a ) P(s'|s, a) = P(S_{t+1} = s' | S_t = s, A_t = a) P(s′∣s,a)=P(St+1=s′∣St=s,At=a),预测在状态 s s s 执行动作 a a a 后,转移到下一个状态 s ′ s' s′ 的概率。
- 奖励模型 (Reward Model): R ( s , a ) = E [ R t + 1 ∣ S t = s , A t = a ] R(s, a) = \mathbb{E} [R_{t+1} | S_t = s, A_t = a] R(s,a)=E[Rt+1∣St=s,At=a],预测在状态 s s s 执行动作 a a a 后获得的期望奖励。
2.4 回报 (Return, G)
- 折扣回报 (Discounted Return):
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + ⋯ = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^\infty \gamma^k R_{t+k+1} Gt=Rt+1+γRt+2+γ2Rt+3+⋯=∑k=0∞γkRt+k+1
衡量从时刻 t t t 开始的长期累积奖励。 - 折扣因子 (Discount Factor, γ):
0
≤
γ
≤
1
0 \leq \gamma \leq 1
0≤γ≤1
- γ \gamma γ 接近 0 时,智能体更关注近期奖励(“近视”)。
- γ \gamma γ 接近 1 时,智能体更关注远期奖励(“有远见”)。
- 也确保了在无限循环任务中回报是有限的。
2.5 其他重要术语
- 轨迹 (Trajectory) / 经验 (Experience) / 历史 (History): 一个状态、动作、奖励的序列: τ = ( S 0 , A 0 , R 1 , S 1 , A 1 , R 2 , . . . ) \tau = (S_0, A_0, R_1, S_1, A_1, R_2, ...) τ=(S0,A0,R1,S1,A1,R2,...)
- 回合 (Episode) / 试验 (Trial) / 预演 (Rollout): 从初始状态开始,到终止状态结束的一条完整轨迹。适用于有明确结束的任务(Episodic Tasks)。
- 动作序列 (Action Sequence): 轨迹中包含的一系列动作 ( A 0 , A 1 , A 2 , . . . ) (A_0, A_1, A_2, ...) (A0,A1,A2,...)。
3. 标准强化学习 vs. 深度强化学习
3.1 标准强化学习 (Standard Reinforcement Learning)
- 通常处理状态空间和动作空间较小的问题。
- 策略和价值函数可以用表格形式表示(例如,Q-table)。
- 算法如:Q-Learning, Sarsa, 动态规划 (DP)。
- Q-learning 更新规则:
Q ( s , a ) ← Q ( s , a ) + α [ r + γ max a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ] Q(s,a) \leftarrow Q(s,a) + \alpha[r + \gamma \max_{a'} Q(s',a') - Q(s,a)] Q(s,a)←Q(s,a)+α[r+γmaxa′Q(s′,a′)−Q(s,a)]
其中 α \alpha α 是学习率, r r r 是即时奖励, γ \gamma γ 是折扣因子。
核心交互循环:
- 在时刻 t t t,智能体观察到环境的状态 S t S_t St (或观测 O t O_t Ot)。
- 基于状态 S t S_t St,智能体根据其策略 π \pi π 选择并执行一个动作 A t A_t At。
- 环境接收到动作 A t A_t At,转移到新的状态 S t + 1 S_{t+1} St+1,并给予智能体一个即时奖励 R t + 1 R_{t+1} Rt+1。
- 智能体利用这些信息 ( S t , A t , R t + 1 , S t + 1 ) (S_t, A_t, R_{t+1}, S_{t+1}) (St,At,Rt+1,St+1) 来学习和改进其策略,循环往复。
3.2 深度强化学习 (Deep Reinforcement Learning, DRL)
- 当状态空间或动作空间非常大,甚至连续时,表格方法不可行。
- 使用深度神经网络 (Deep Neural Networks, DNNs) 作为函数逼近器来表示策略、价值函数或模型。
- 例如,用神经网络输入状态,输出每个动作的Q值 (DQN),或直接输出动作的概率分布 (Policy Gradients)。
- 能够处理高维输入,如图像 (Atari 游戏)、文本。
- 算法如:DQN, DDPG, A3C, PPO, TRPO。
深度 Q 网络 (DQN) 损失函数:
L
=
E
[
(
r
+
γ
max
a
′
Q
(
s
′
,
a
′
;
θ
−
)
−
Q
(
s
,
a
;
θ
)
)
2
]
\mathcal{L} = \mathbb{E} \left[ \left( r + \gamma \max_{a'} Q(s', a'; \theta^-) - Q(s, a; \theta) \right)^2 \right]
L=E[(r+γmaxa′Q(s′,a′;θ−)−Q(s,a;θ))2]
其中
θ
\theta
θ 是当前网络参数,
θ
−
\theta^-
θ− 是目标网络参数。
策略梯度 (Policy Gradient):
∇
θ
J
(
θ
)
=
E
[
∇
θ
log
π
θ
(
a
∣
s
)
⋅
A
(
s
,
a
)
]
\nabla_\theta J(\theta) = \mathbb{E} \left[ \nabla_\theta \log \pi_\theta(a|s) \cdot A(s, a) \right]
∇θJ(θ)=E[∇θlogπθ(a∣s)⋅A(s,a)]
其中
A
(
s
,
a
)
A(s, a)
A(s,a) 是优势函数,用于处理连续动作空间和高维输入。
4. 序列决策 (Sequential Decision Making)
4.1 奖励与回报
- 奖励假设 (Reward Hypothesis): 强化学习中的所有目标都可以被描述为最大化期望累积奖励。
- 近期奖励 vs 远期奖励的权衡: 智能体的目标是最大化从当前时刻开始的未来累积奖励(也称为回报 Return, G),而不仅仅是即时奖励。
4.2 可观测性 (Observability)
-
完全可观测 (Fully Observable): 智能体可以直接观测到环境的真实状态 S t S_t St。这类问题通常用马尔可夫决策过程 (Markov Decision Process, MDP) 来建模。
- 马尔可夫性质: 当前状态 S t S_t St 包含了所有与未来决策相关的历史信息,即 P ( S t + 1 ∣ S t , A t , S t − 1 , A t − 1 , . . . ) = P ( S t + 1 ∣ S t , A t ) P(S_{t+1} | S_t, A_t, S_{t-1}, A_{t-1}, ...) = P(S_{t+1} | S_t, A_t) P(St+1∣St,At,St−1,At−1,...)=P(St+1∣St,At)。
-
部分可观测 (Partially Observable): 智能体只能得到环境的部分信息,即观测 O t O_t Ot, O t ≠ S t O_t \neq S_t Ot=St。观测可能包含噪声或不完整。这类问题通常用部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP) 来建模。
- 观测模型: O ( o ∣ s , a ) = P ( O t = o ∣ S t = s , A t − 1 = a ) O(o | s, a) = P(O_t = o | S_t = s, A_{t-1} = a) O(o∣s,a)=P(Ot=o∣St=s,At−1=a),描述部分可观测性。
- 信念状态: b ( s ) = P ( S t = s ∣ o 1 , a 1 , … , o t , a t ) b(s) = P(S_t = s | o_1, a_1, \dots, o_t, a_t) b(s)=P(St=s∣o1,a1,…,ot,at),根据观测历史估计状态。
4.3 马尔可夫决策过程 (MDP)
- 状态转移概率: P ( s ′ ∣ s , a ) = P ( S t + 1 = s ′ ∣ S t = s , A t = a ) P(s' | s, a) = P(S_{t+1} = s' | S_t = s, A_t = a) P(s′∣s,a)=P(St+1=s′∣St=s,At=a)。
- 奖励函数: R ( s , a ) = E [ R t + 1 ∣ S t = s , A t = a ] R(s, a) = \mathbb{E} [R_{t+1} | S_t = s, A_t = a] R(s,a)=E[Rt+1∣St=s,At=a]。
- 贝尔曼方程:
- 状态价值: V π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r P ( s ′ , r ∣ s , a ) [ r + γ V π ( s ′ ) ] V^\pi(s) = \sum_a \pi(a|s) \sum_{s', r} P(s', r | s, a) \left[ r + \gamma V^\pi(s') \right] Vπ(s)=∑aπ(a∣s)∑s′,rP(s′,r∣s,a)[r+γVπ(s′)]。
- 动作价值: Q π ( s , a ) = ∑ s ′ , r P ( s ′ , r ∣ s , a ) [ r + γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^\pi(s, a) = \sum_{s', r} P(s', r | s, a) \left[ r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') \right] Qπ(s,a)=∑s′,rP(s′,r∣s,a)[r+γ∑a′π(a′∣s′)Qπ(s′,a′)]。
4.4 交互过程的数学表示
- 智能体在 t t t 时刻观察到状态 O t O_t Ot (观测),执行动作 A t A_t At,环境反馈奖励 R t + 1 R_{t+1} Rt+1 和下一个状态 S t + 1 S_{t+1} St+1 (或观测 O t + 1 O_{t+1} Ot+1)。
- S t → A t → R t + 1 , S t + 1 S_t \rightarrow A_t \rightarrow R_{t+1}, S_{t+1} St→At→Rt+1,St+1 (对于完全可观测环境)
- O t → A t → R t + 1 , O t + 1 O_t \rightarrow A_t \rightarrow R_{t+1}, O_{t+1} Ot→At→Rt+1,Ot+1 (对于部分可观测环境)
5. 动作空间 (Action Space)
5.1 离散动作空间 (Discrete Action Space)
- 动作的数量是有限的、可数的。
- 动作集合: A = { a 1 , a 2 , … , a n } \mathcal{A} = \{a_1, a_2, \dots, a_n\} A={a1,a2,…,an},有限动作的概率分布: π ( a ∣ s ) \pi(a|s) π(a∣s)。
- 例如:在游戏中按"上、下、左、右";在棋类游戏中选择棋子和落点。
5.2 连续动作空间 (Continuous Action Space)
- 动作是实值向量,每个维度可以取一定范围内的连续值。
- 动作集合:
A
⊆
R
d
\mathcal{A} \subseteq \mathbb{R}^d
A⊆Rd,策略通常建模为概率密度,例如高斯分布:
π ( a ∣ s ) = N ( a ∣ μ ( s ) , σ 2 ) \pi(a|s) = \mathcal{N}(a | \mu(s), \sigma^2) π(a∣s)=N(a∣μ(s),σ2)
其中 μ ( s ) \mu(s) μ(s) 是均值, σ 2 \sigma^2 σ2 是方差。 - 例如:机器人控制中关节的角度或力矩;自动驾驶中方向盘转角、油门大小。
6. 智能体组成和分类 (Agent Components and Taxonomy)
6.1 基于价值的智能体 (Value-Based Agents)
- 显式学习价值函数 (通常是 Q 函数)。
- 策略是隐式的,通常通过选择具有最高价值的动作来导出(例如,贪心策略 w.r.t. Q-values)。
- 例子: Q-Learning, DQN, Sarsa。
6.2 基于策略的智能体 (Policy-Based Agents)
- 直接学习策略函数 π ( a ∣ s ) \pi(a|s) π(a∣s),而不需要学习价值函数。
- 可以直接处理连续动作空间。
- 例子: REINFORCE, A2C (Actor-Critic 中的 Actor 部分)。
6.3 演员-评论家智能体 (Actor-Critic Agents)
- 结合了基于价值和基于策略的方法。
- 演员 (Actor): 学习策略 (Policy),负责选择动作。
- 评论家 (Critic): 学习价值函数 (Value Function),负责评估演员选择的动作的好坏,并指导演员的更新。
- 演员更新: ∇ θ J ( θ ) = E [ ∇ θ log π θ ( a ∣ s ) ⋅ Q ( s , a ) ] \nabla_\theta J(\theta) = \mathbb{E} \left[ \nabla_\theta \log \pi_\theta(a|s) \cdot Q(s, a) \right] ∇θJ(θ)=E[∇θlogπθ(a∣s)⋅Q(s,a)]。
- 评论家更新: 最小化误差: L = ( Q ( s , a ) − ( r + γ V ( s ′ ) ) ) 2 \mathcal{L} = \left( Q(s, a) - (r + \gamma V(s')) \right)^2 L=(Q(s,a)−(r+γV(s′)))2
- 例子: A2C (Advantage Actor-Critic), A3C (Asynchronous Advantage Actor-Critic), DDPG, PPO.
6.4 有模型的智能体 (Model-Based Agents)
- 显式地学习环境的模型。
- 学习到模型后,可以通过模型进行规划(例如,通过模拟未来的轨迹来选择最优动作),或者生成模拟经验来辅助学习。
- 优点:可能样本效率更高。
- 缺点:学习一个准确的模型本身可能很困难;如果模型不准确,可能导致次优策略(模型误差累积)。
- 例子: Dyna-Q。
6.5 免模型的智能体 (Model-Free Agents)
- 不尝试学习环境的模型。
- 直接从与环境交互的经验中学习策略或价值函数。
- 优点:实现相对简单,可以直接应用于模型未知的环境。
- 缺点:通常需要大量的经验数据,样本效率可能较低。
- 大多数流行的深度强化学习算法(如 DQN, PPO, A3C)都是免模型的。
7. 探索和利用 (Exploration and Exploitation)
这是强化学习中的一个基本困境。
7.1 探索 (Exploration)
- 尝试新的、未充分评估的动作,以期发现可能带来更高奖励的路径或策略。
- 目的是获取更多关于环境的信息,避免陷入局部最优。
- 可能导致短期内的次优选择。
7.2 利用 (Exploitation)
- 根据当前已有的知识,选择已知能带来最高(期望)奖励的动作。
- 目的是最大化当前的表现。
- 可能错过更好的未知选择。
7.3 平衡策略
7.3.1 ε-贪婪策略 (ε-greedy)
- 以 1 − ε 1-\varepsilon 1−ε 的概率选择当前估计最优的动作(利用)。
- 以 ε \varepsilon ε 的概率随机选择一个动作(探索)。
- ε \varepsilon ε 的值可以随着训练的进行而逐渐减小。
- 动作选择:
a = { random action with probability ϵ arg max a Q ( s , a ) with probability 1 − ϵ a = \begin{cases} \text{random action} & \text{with probability } \epsilon \\ \arg\max_a Q(s, a) & \text{with probability } 1 - \epsilon \end{cases} a={random actionargmaxaQ(s,a)with probability ϵwith probability 1−ϵ
7.3.2 上置信界 (Upper Confidence Bound, UCB)
- 选择动作时,不仅考虑其估计价值,还考虑其不确定性。优先选择那些估计价值高或不确定性大的动作。
- 动作选择:
a = arg max a [ Q ( s , a ) + c ln N ( s ) N ( s , a ) ] a = \arg\max_a \left[ Q(s, a) + c \sqrt{\frac{\ln N(s)}{N(s, a)}} \right] a=argmaxa[Q(s,a)+cN(s,a)lnN(s)]
其中 N ( s ) N(s) N(s) 是状态访问次数, N ( s , a ) N(s, a) N(s,a) 是动作选择次数, c c c 是探索参数。
7.3.3 基于概率匹配的探索 (Probability Matching / Thompson Sampling)
- 假设每个动作的价值服从某个概率分布,根据这些分布采样来选择动作。
7.3.4 好奇心驱动/内在激励 (Intrinsic Motivation / Curiosity-driven Exploration)
- 为智能体引入额外的"好奇心"奖励,鼓励其探索新奇的状态或环境动态难以预测的部分。
8. 关键词总结 (Keywords Summary)
- 强化学习 (Reinforcement Learning, RL)
- 智能体 (Agent)
- 环境 (Environment)
- 状态 (State, S)
- 动作 (Action, A)
- 奖励 (Reward, R)
- 策略 (Policy, π) (随机性/确定性)
- 价值函数 (Value Function) (V(s), Q(s,a))
- 模型 (Model) (状态转移, 奖励模型)
- 马尔可夫决策过程 (Markov Decision Process, MDP)
- 部分可观测马尔可夫决策过程 (POMDP)
- 回报 (Return, Gt)
- 折扣因子 (Discount Factor, γ)
- 轨迹 (Trajectory) / 回合 (Episode)
- 探索与利用 (Exploration vs. Exploitation) (ε-greedy, UCB)
- 基于价值 (Value-Based) (Q-Learning, DQN)
- 基于策略 (Policy-Based) (REINFORCE)
- 演员-评论家 (Actor-Critic) (A2C, A3C, PPO, DDPG)
- 有模型 (Model-Based)
- 免模型 (Model-Free)
- 深度强化学习 (Deep Reinforcement Learning, DRL)
- 信用分配问题 (Credit Assignment Problem)
- 延迟奖励 (Delayed Reward)
- 动作空间 (Action Space) (离散/连续)
9. 强化学习在大语言模型中的应用
9.1 核心概念在LLM中的映射
9.1.1 智能体和策略
智能体 (Agent) / 策略 (Policy, π):
- 在LLM语境下: LLM本身就是智能体,其参数定义了策略。策略决定了在给定当前文本序列(状态)的条件下,选择下一个词元(token/动作)的概率分布 π ( 下一个词元 ∣ 当前文本序列 ) \pi(\text{下一个词元} | \text{当前文本序列}) π(下一个词元∣当前文本序列)。
- 重点关注:
- LLM如何作为策略网络被优化。
- 理解随机性策略(通过采样,如温度、top-k, top-p)和确定性策略的含义,尽管在生成任务中通常使用随机策略进行探索。
- 数学公式相关: π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t=a | S_t=s) π(a∣s)=P(At=a∣St=s) (随机策略) 和策略梯度 ∇ θ J ( θ ) = E [ ∇ θ log π θ ( a ∣ s ) ⋅ A ( s , a ) ] \nabla_\theta J(\theta)=\mathbb{E}[\nabla_\theta\log\pi_\theta(a|s)\cdot A(s,a)] ∇θJ(θ)=E[∇θlogπθ(a∣s)⋅A(s,a)] (策略更新的核心)。
9.1.2 状态和动作
状态 (State, S) / 动作 (Action, A) / 轨迹 (Trajectory) / 回合 (Episode):
- 在LLM语境下:
- 状态 (S): 当前已经生成的文本序列(或其在LLM中的内部表示)。
- 动作 (A): LLM选择生成的下一个词元(token)。
- 动作空间: 整个词汇表(vocabulary)的大小,通常是一个非常巨大的离散动作空间(数万到数十万个可能的动作)。
- 轨迹/回合 (τ/Episode): 从一个初始提示(prompt)开始,LLM生成的一整个文本序列,直到遇到结束符或达到最大长度。
9.1.3 奖励机制
奖励 (Reward, R) / 回报 (Return, G_t):
- 在LLM语境下: 这是RLHF的核心。奖励通常不是环境直接给出的,而是由一个独立的奖励模型 (Reward Model, RM) 给出。这个RM本身是根据人类偏好数据训练的监督学习模型,它评估LLM生成的文本序列的质量(例如,有用性、无害性、真实性)。
- 重点关注:
- 奖励模型的设计和训练。
- 如何定义一个好的奖励信号来引导LLM生成期望的输出。
- 延迟奖励/信用分配问题: 一个完整的生成文本可能在末尾才获得一个总的奖励,如何将这个奖励合理分配给序列中的每一个词元选择(动作)是一个挑战,尽管在实践中通常对整个序列评分。
- 数学公式相关: G t = ∑ k = 0 ∞ γ k R t + k + 1 G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} Gt=∑k=0∞γkRt+k+1 (回报定义) 和奖励函数 R ( s , a ) R(s, a) R(s,a) (虽然在LLM中通常是 R ( 整个序列 ) R(\text{整个序列}) R(整个序列))。
9.1.4 价值评估
价值函数 (Value Function, V(s), Q(s,a)):
- 在LLM语境下: 尤其在Actor-Critic方法(如PPO)中,价值函数(通常是状态价值函数 V ( s ) V(s) V(s))被用来估计当前状态(文本序列)的期望回报。它可以帮助减少策略梯度的方差,稳定训练。这个价值函数(也叫Critic)通常也是一个独立的神经网络。
- 重点关注:
- 价值函数如何辅助策略学习(例如,在优势函数 A ( s , a ) = Q ( s , a ) − V ( s ) A(s,a) = Q(s,a) - V(s) A(s,a)=Q(s,a)−V(s) 或 A ( s , a ) = R + γ V ( s ′ ) − V ( s ) A(s,a) = R + \gamma V(s') - V(s) A(s,a)=R+γV(s′)−V(s) 中的作用)。
- Critic网络的训练目标(例如,最小化TD误差)。
- 数学公式相关: V π ( s ) V^\pi(s) Vπ(s) 和 Q π ( s , a ) Q^\pi(s,a) Qπ(s,a) 的定义,贝尔曼方程,以及DQN损失函数中的目标值 r + γ max a ′ Q ( s ′ , a ′ ; θ − ) r + \gamma \max_{a'} Q(s',a'; \theta^-) r+γmaxa′Q(s′,a′;θ−) (理解其思想,即使DQN本身不直接用于LLM生成)。
9.2 RLHF中的关键算法
9.2.1 演员-评论家方法与PPO
演员-评论家 (Actor-Critic) 方法 (特别是PPO):
- 在LLM语境下: PPO (Proximal Policy Optimization) 是目前微调LLM最主流和最成功的RL算法。LLM是Actor(策略),另外还会有一个Critic(价值函数)。
- 重点关注:
- PPO的核心思想:如何通过限制策略更新的幅度(clipping)来保证训练的稳定性。
- Actor(LLM/Policy)和Critic(Value Network)的交互和各自的更新规则。
- 数学公式相关: PPO的Clipped Surrogate Objective Function:
L C L I P ( θ ) = E t [ min ( r t ( θ ) A ^ t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A ^ t ) ] L^{CLIP}(\theta) = \mathbb{E}_t\left[\min\left(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right] LCLIP(θ)=Et[min(rt(θ)A^t,clip(rt(θ),1−ϵ,1+ϵ)A^t)]
其中 r t ( θ ) = π θ ( a t ∣ s t ) π θ o l d ( a t ∣ s t ) r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} rt(θ)=πθold(at∣st)πθ(at∣st) 是重要性采样比率。
9.2.2 免模型方法
免模型 (Model-Free) 方法:
- 在LLM语境下: RLHF通常采用免模型方法。这意味着我们不尝试去学习环境的完整动态模型(即给定当前文本和下一个词元,下一个状态和奖励的精确概率分布)。我们直接学习策略(LLM本身)和/或价值函数。
- 重点关注: 理解为什么对于复杂的LLM和文本生成任务,免模型方法更实用。
9.2.3 深度强化学习的应用
深度强化学习 (Deep Reinforcement Learning, DRL):
- 在LLM语境下: LLM本身就是深度神经网络,所以这自然是DRL的应用。策略网络和价值网络(如果使用)都是深度模型。
- 重点关注: 神经网络如何作为函数逼近器来表示策略和价值函数。
9.3 探索与学习机制
9.3.1 探索与利用的平衡
探索与利用 (Exploration vs. Exploitation):
- 在LLM语境下:
- 探索: LLM生成多样化的、可能不是当前最优但有潜力的文本。这可以通过在策略(LLM的输出概率分布)中引入随机性(例如,采样温度)来实现。
- 利用: LLM生成当前已知能够获得高奖励的文本。
- 重点关注: 虽然不像传统RL那样有明确的ε-greedy等机制,但理解LLM的采样策略(temperature, top-p, top-k)如何隐式地平衡探索和利用是重要的。RL的优化过程会逐渐引导LLM"利用"更高奖励的生成模式。
9.3.2 马尔可夫决策过程在LLM中的应用
马尔可夫决策过程 (Markov Decision Process, MDP):
- 在LLM语境下: 文本生成过程可以被近似地建模为一个MDP,其中当前状态(已生成的文本)包含了做出下一个决策(选择下一个词元)所需的所有信息。
- 重点关注: 理解MDP的基本框架如何应用于序列决策问题。
9.3.3 折扣因子的意义
折扣因子 (Discount Factor, γ):
- 在LLM语境下: 用于平衡即时奖励和未来奖励的重要性。在文本生成中,如果奖励主要在序列末尾给出,折扣因子的影响可能不如在每一步都有密集奖励的任务中那么直接,但概念仍然重要。
9.4 RLHF优化流程总结
RLHF的核心流程:
- 预训练LLM: 通过自监督学习,LLM学习语言建模能力
- 奖励模型训练: 基于人类偏好数据训练奖励模型
- RL优化: 使用PPO等算法,根据奖励模型提供的反馈优化LLM
关键优化目标:
- 最大化期望累积奖励 J ( π ) = E π [ ∑ t = 0 ∞ γ t R t + 1 ] J(\pi) = \mathbb{E}_\pi [ \sum_{t=0}^{\infty} \gamma^t R_{t+1} ] J(π)=Eπ[∑t=0∞γtRt+1]。LLM ( π \pi π) 是要优化的对象。
- 奖励 R R R 来自于一个独立的奖励模型,而不是环境本身。
- LLM的输出概率分布 π θ ( a ∣ s ) \pi_\theta(a|s) πθ(a∣s) 就是策略。 a a a 是词汇表中的一个词元, s s s 是之前的词元序列。
- 数据流: 智能体(LLM)生成一个轨迹(文本序列),奖励模型评估这个轨迹给出奖励,然后PPO算法根据这个奖励更新LLM的参数 θ \theta θ 和Critic的参数。