强化学习实战：用Python手搓Sarsa和Q-Learning，在悬崖漫步里看谁更“怂”

news2026/5/24 3:22:00

强化学习实战Python实现Sarsa与Q-Learning在悬崖漫步中的策略差异从游戏视角理解强化学习核心算法想象你正站在一个4×12的网格世界起点目标是到达右下角的终点。但中间有一片悬崖——任何踏入都会让你回到起点并承受巨大惩罚。每走一步都会消耗体力负奖励而安全到达终点则获得奖励。这就是经典的悬崖漫步环境也是理解强化学习基础算法的绝佳试验场。本文将带你用Python实现两种最基础的时序差分(TD)算法——Sarsa和Q-Learning通过直观的代码实验揭示它们在策略安全性上的本质差异。不同于单纯的理论讲解我们将使用Gym库搭建可视化环境从零编写算法代码调整关键参数观察策略变化可视化智能体的走位决策过程import gym import numpy as np import matplotlib.pyplot as plt # 创建悬崖漫步环境 env gym.make(CliffWalking-v0) print(f状态空间大小: {env.observation_space.n}) print(f动作空间: {env.action_space.n}) # 0:上, 1:右, 2:下, 3:左1. 环境解析与Q表初始化悬崖漫步环境是一个典型的离散状态-动作空间问题非常适合表格型方法。环境特点状态48个离散位置4行×12列动作4个方向移动上、右、下、左奖励每步-1掉崖-100并重置到达终点0我们先初始化Q表这是两种算法共享的数据结构class CliffWalkingAgent: def __init__(self, env, alpha0.1, gamma0.9, epsilon0.1): self.env env self.alpha alpha # 学习率 self.gamma gamma # 折扣因子 self.epsilon epsilon # 探索率 self.q_table np.zeros((env.observation_space.n, env.action_space.n))2. Sarsa算法实现保守派的路径选择Sarsa是一种on-policy算法其名称源自更新公式中使用的状态-动作序列(S, A, R, S, A)。核心特点是当前策略决定下一个动作导致更保守的行为模式。2.1 算法原理Sarsa的更新公式Q(S,A) ← Q(S,A) α[R γQ(S,A) - Q(S,A)]其中α学习率γ折扣因子A根据当前策略在S状态下选择的动作class SarsaAgent(CliffWalkingAgent): def update(self, s, a, r, s_, a_): # Sarsa更新公式 td_target r self.gamma * self.q_table[s_, a_] td_error td_target - self.q_table[s, a] self.q_table[s, a] self.alpha * td_error def train(self, episodes500): rewards [] for _ in range(episodes): s env.reset() a self._choose_action(s) episode_reward 0 done False while not done: s_, r, done, _ env.step(a) a_ self._choose_action(s_) self.update(s, a, r, s_, a_) episode_reward r s, a s_, a_ rewards.append(episode_reward) return rewards2.2 策略可视化与结果分析训练完成后我们可以可视化学习到的策略def plot_policy(q_table): arrows [↑, →, ↓, ←] policy np.argmax(q_table, axis1).reshape(4,12) for row in range(4): line [] for col in range(12): if row 3 and (0 col 11): line.append(×) # 悬崖 else: line.append(arrows[policy[row,col]]) print( .join(line))典型输出→ → → → → → → → → → → ↓ → → → → → → → → → → → ↓ → → → → → → → → → → → ↓ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ ↑ →可以看到Sarsa倾向于选择远离悬崖的安全路径尽管这条路更长。这是因为在靠近悬崖的状态下随机探索可能导致掉崖算法会将这些高风险状态的Q值降低最终策略会避开这些高风险区域3. Q-Learning实现冒险家的最优路径Q-Learning是off-policy算法其更新公式为Q(S,A) ← Q(S,A) α[R γmax_a Q(S,a) - Q(S,A)]关键区别在于使用最优未来价值而非实际采取的动作。3.1 代码实现class QLearningAgent(CliffWalkingAgent): def update(self, s, a, r, s_, done): # Q-Learning更新公式 if done: td_target r else: td_target r self.gamma * np.max(self.q_table[s_]) td_error td_target - self.q_table[s, a] self.q_table[s, a] self.alpha * td_error def train(self, episodes500): rewards [] for _ in range(episodes): s env.reset() episode_reward 0 done False while not done: a self._choose_action(s) s_, r, done, _ env.step(a) self.update(s, a, r, s_, done) episode_reward r s s_ rewards.append(episode_reward) return rewards3.2 策略对比Q-Learning的典型策略→ → → → → → → → → → → ↓ → → → → → → → → → → → ↓ → → → → → → → → → → → ↓ ↑ → → → → → → → → → → →Q-Learning倾向于贴着悬崖的最短路径因为它学习的是最优策略的价值估计不考虑探索时的随机动作影响理论上当探索率ε→0时能收敛到最优路径4. 参数实验探索率ε的影响探索率ε是控制算法行为的关键参数。我们通过实验观察不同ε值对策略的影响epsilons [0.01, 0.1, 0.3] results {} for eps in epsilons: agent SarsaAgent(env, epsiloneps) results[fSarsa(ε{eps})] agent.train() agent QLearningAgent(env, epsiloneps) results[fQ-Learning(ε{eps})] agent.train() # 绘制学习曲线 plt.figure(figsize(10,6)) for label, rewards in results.items(): plt.plot(np.convolve(rewards, np.ones(50)/50, modevalid), labellabel) plt.legend() plt.xlabel(Episode) plt.ylabel(Average Reward) plt.title(Performance under Different Exploration Rates) plt.show()实验发现Sarsa高ε值导致更保守的策略Q-Learning高ε值增加掉崖风险但保持最优路径倾向5. 算法本质差异解析两种算法在悬崖漫步中表现差异的根本原因特性SarsaQ-Learning策略类型On-policyOff-policy更新目标当前策略的动作最优可能动作安全性高低路径长度长但安全短但有风险适用场景高风险环境确定性环境用驾驶比喻Sarsa新手司机考虑实际可能采取的操作包括失误Q-Learning理想化驾驶假设总能做出完美决策6. 进阶技巧与优化6.1 动态探索率class DecayEpsilonAgent(CliffWalkingAgent): def __init__(self, env, epsilon_start1.0, epsilon_end0.01, epsilon_decay0.995): super().__init__(env) self.epsilon epsilon_start self.epsilon_end epsilon_end self.epsilon_decay epsilon_decay def _choose_action(self, s): self.epsilon max(self.epsilon_end, self.epsilon*self.epsilon_decay) return super()._choose_action(s)6.2 可视化价值函数def plot_value_function(q_table): v np.max(q_table, axis1).reshape(4,12) plt.imshow(v, cmaphot) plt.colorbar() plt.title(State Value Function) plt.axis(off) for i in range(4): for j in range(12): plt.text(j, i, f{v[i,j]:.1f}, hacenter, vacenter, colorblue)7. 工程实践建议在实际项目中应用这些算法时环境敏感性分析先理解环境特性再选择算法超参数调优系统性地探索参数空间可视化调试价值函数和策略可视化至关重要基准测试与随机策略或规则策略比较稳定性处理考虑使用滑动平均评估性能# 性能评估函数 def evaluate(agent, runs100): total_rewards [] for _ in range(runs): s env.reset() done False rewards 0 while not done: a np.argmax(agent.q_table[s]) # 使用贪婪策略 s, r, done, _ env.step(a) rewards r total_rewards.append(rewards) return np.mean(total_rewards), np.std(total_rewards)通过这个完整的实现和实验过程我们直观地验证了Sarsa的保守特性使其适合安全关键应用Q-Learning在充分探索后能找到最优路径探索率对策略安全性的显著影响可视化在强化学习开发中的重要性

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2639660.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！