Q学习入门：用DQN训练乒乓AI的原理与实操

news2026/5/22 3:13:20

1. 项目概述从乒乓游戏切入理解Q学习如何让AI学会“思考下一步”你有没有试过盯着一个简单的乒乓球游戏界面发呆球正朝右下角飞来挡板在屏幕左侧此时你的手指悬在键盘上方——是按上、按下还是不动这个瞬间的决策背后其实藏着人类最本能的预测能力大脑飞快估算“如果我现在按下方向键球会不会被挡回去下一拍我还有没有机会”这种对“未来收益”的直觉判断正是强化学习要教给机器的核心能力。而Q学习就是其中最经典、最透明、也最容易上手的入门方法。它不靠海量标注数据也不靠预设规则而是让AI像新手玩家一样在反复试错中自己总结出“在什么状态下做哪个动作最可能赢”。本文讲的就是一个用Q学习训练乒乓AI的真实项目——不是玩具Demo而是有完整状态建模、奖励设计、神经网络拟合和经验回放机制的可复现实操方案。关键词里提到的“Towards AI”指的是原始内容发布平台但本文完全剥离平台属性聚焦技术本质Q函数如何定义、为什么必须用贝尔曼方程迭代更新、经验回放怎么解决数据相关性问题、以及当动作空间变大时Q学习的瓶颈到底卡在哪。适合刚接触强化学习、想亲手跑通第一个DQNDeep Q-Network模型的开发者也适合已有项目经验、想厘清底层逻辑的工程师。你不需要数学博士背景但得愿意跟着代码逻辑把“期望回报”“状态转移”“贪婪策略”这些词还原成一行行可调试的Python。2. 核心思路拆解为什么选Q函数为什么非得用神经网络2.1 Q函数的本质一张动态更新的“决策地图”想象你第一次进一家陌生的火锅店服务员递来菜单你根本不知道毛肚烫多久最脆、鸭血煮几分钟最嫩。但如果你能拿到一张“前辈食客实测地图”横轴是食材种类纵轴是时间每个格子里写着“5分绝了”“-2分老了”“0分还行”你立刻就能做出靠谱选择。Q函数干的就是这事——但它画的不是静态地图而是一张实时演化的“状态-动作价值表”。表的行是所有可能的游戏状态S比如“球在(120,80)速度向量(3,-2)挡板y坐标64”列是所有合法动作A上/下/不动。每个单元格Q(S,A)的数值代表“如果此刻处于状态S并执行动作A之后一直用最优策略玩下去我能拿到的总奖励的期望值”。注意这不是单步奖励而是未来所有奖励的加权和带折扣因子γ。所以回到乒乓场景当球飞向右下角时Q(S, 下)的值必然远高于Q(S, 上)因为前者大概率导致挡板成功拦截触发正向奖励后者大概率让球飞出边界触发负向惩罚。这个“高值好选择”的直觉就是Q学习的全部哲学。它不关心具体怎么实现“下”只负责告诉策略“这里该选下”。策略本身比如ε-greedy再根据这张表做最终决定。这种“价值评估”与“行为执行”的分离让算法异常稳健——即使策略偶尔犯错随机选了个烂动作只要Q表足够准系统很快就能自我纠正。2.2 为什么传统Q表行不通神经网络是唯一的出路理论上我们可以为每个可能的状态-动作对单独存一个Q值做成一张巨大的二维数组。但乒乓游戏的状态空间有多大假设我们把屏幕像素简化为64×64灰度图每个像素8位那单帧状态就有64×64×832768比特对应2^32768种可能这比宇宙原子总数还多几个数量级。更现实的建模是提取关键特征球坐标(x,y)、球速度(vx,vy)、挡板y坐标、挡板速度……即便如此连续值也要离散化状态数轻松破百万。传统Q表内存爆炸更新也慢——每次只改一个格子收敛需要遍历所有状态无数次。这时候神经网络的价值就凸显了它是一个函数逼近器。我们不再存储每个Q(S,A)而是训练一个网络f(S;θ)输入状态S输出所有动作的Q值向量。网络权重θ就是我们要学的参数。好处立竿见影泛化能力没见过的状态S只要和已知状态S相似网络就能给出合理Q值估计不用从零学起内存友好参数量可能就几万远小于百万级Q表端到端优化用梯度下降直接最小化Q值预测误差比查表更新高效得多。原始资料里提到“用CNN或Transformer替换FFNN”正是这个思路的延伸——当状态是图像如原始像素帧时CNN能自动提取空间特征当状态含时序信息如连续几帧Transformer能建模长程依赖。但核心没变网络只是工具目标永远是拟合那个理想的Q*函数。2.3 贝尔曼最优方程Q学习的“心脏起搏器”如果Q函数是地图贝尔曼最优方程就是绘制这张地图的“制图法则”。它的数学形式是Q(S,A) R(S,A) γ × maxₐ Q(S,a)**其中R(S,A)是执行动作A后立即获得的奖励S是执行A后到达的新状态γ是折扣因子0γ1maxₐ Q*(S,a)代表在新状态S下所有可能动作中的最高Q值。这个公式揭示了一个深刻事实某个状态-动作对的价值等于“眼前收获”加上“未来最佳收益”的折现。它像一个递归定义把全局最优分解为局部最优。Q学习的整个训练过程就是在不断用这个方程“校准”网络预测当前状态S网络预测Q(S,A₁), Q(S,A₂), Q(S,A₃)执行动作A₁观察到奖励R和新状态S用S输入网络得到所有动作的Q值取最大值maxₐ Q(S,a)计算目标值Y R γ × maxₐ Q(S,a)用均方误差损失L (Q(S,A₁) - Y)² 更新网络。这个过程叫时序差分TD学习它不需要知道环境的完整动力学模型即P(S|S,A)只靠实际交互就能逼近Q*。原始资料里强调“通过玩游戏计算Rt”指的就是这一步——奖励R不是凭空而来而是由游戏规则硬编码挡到球1分丢球-1分每帧存活0.01分鼓励持久战。没有这些精心设计的即时反馈贝尔曼方程就成了无源之水。2.4 经验回放打破数据“记忆链”让学习更稳定真实训练中有个致命陷阱如果AI连续执行100次“向下”动作它收集的100个经验样本S,A,R,S高度相关——S几乎就是下一个S。用这种强相关的数据流训练神经网络会导致梯度更新剧烈震荡Q值预测忽高忽低模型根本学不稳。经验回放Replay Buffer就是专治此病的良方。它的设计极其朴素建一个固定大小的队列比如10万条每次交互后把(S,A,R,S)四元组塞进去训练时不按顺序取而是随机采样一批如32条。这样送入网络的每批数据都来自不同时间点、不同游戏阶段彼此独立。更重要的是它实现了“过去经验的重复利用”一个成功的拦截经验可能在后续几百次训练中被反复抽取加速关键模式的学习。原始资料称其为“paper called Replay Buffer”实则出自2015年DeepMind的DQN开山论文。工程实现上我们通常用collections.deque或专用库如rlpyt的PrioritizedReplayBuffer采样策略也可升级——给高TD误差的经验更高优先级让网络先啃硬骨头。但核心思想不变用随机性打破时序相关性用重放提升数据效率。3. 关键细节解析状态建模、奖励设计与网络架构3.1 状态State建模从像素到语义精度与效率的平衡术状态是Q学习的输入它的质量直接决定AI的上限。原始资料只提“游戏状态”但没说怎么构造。实践中我们有两条路路径一原始像素输入End-to-End直接把游戏画面截图如84×84灰度图喂给CNN。这是最“纯粹”的深度强化学习网络自己学特征。但代价巨大需要大量GPU显存和训练时间且对噪声敏感比如UI元素干扰。原始代码链接里的ping_pong_dqn.ipynb大概率走这条路用CNN提取空间特征。路径二手工特征工程Hand-crafted Features放弃像素提取物理量球中心坐标(x_ball, y_ball)球速度(vx_ball, vy_ball)挡板中心y坐标(y_paddle)挡板速度(vy_paddle)甚至球与挡板的相对距离(dx, dy)。这些4~6维的向量输入一个小型全连接网络FFNN即可。优势是训练快、稳定、可解释——你能直观看到“当dx0且vy_ball0时Q(下)值飙升”。我在实操中发现对于乒乓这类规则清晰的2D游戏手工特征往往比像素输入收敛快5倍以上且最终性能不输。关键技巧在于归一化所有坐标除以屏幕宽高映射到[0,1]速度除以最大可能值如±5像素/帧避免网络因量纲差异而“晕眩”。另外状态必须包含时序信息。单帧状态无法判断球速方向所以标准做法是堆叠4帧如OpenAI Gym的NoFrameskip-v4环境形成(4,84,84)的张量。手工特征同理用最近4步的(x,y,vx,vy)组成16维向量。这解决了“球在画面外但仍在运动”的盲区问题。3.2 奖励Reward设计别让AI“钻空子”用奖励塑造行为奖励是AI的“老师”但这位老师很狡猾——它只告诉你“对错”不解释“为什么”。设计不当AI会找到你意想不到的漏洞。乒乓游戏的经典坑只设“得分1丢球-1”→ AI学会无限拖延挡板小幅度抖动让球在边界来回弹跳永不落点靠时间耗尽获胜。加入“每帧0.01”生存奖励→ 问题更糟AI彻底躺平拒绝任何风险动作。我的解决方案是三段式奖励核心事件奖励挡到球1.0丢球-1.0强制胜负导向动作惩罚每次执行“上”或“下”动作-0.01抑制无谓移动鼓励静止距离奖励球与挡板中心的垂直距离dy给予-(|dy|/screen_height)的连续惩罚引导挡板主动迎球。这个组合拳效果显著AI不再抖动而是精准预判球轨提前移动到落点。原理在于稀疏奖励Sparse Reward与稠密奖励Dense Reward的结合——前者定义终极目标赢后者提供中间指引怎么赢。原始资料只提“R during the process”但没展开设计逻辑。实操中我建议用gym.Wrapper封装奖励函数方便AB测试不同策略。一个隐藏技巧奖励缩放Reward Scaling。把所有奖励乘以10能让网络梯度更明显加速初期学习但需同步调小学习率否则后期震荡。3.3 网络架构从FFNN到CNN结构选择背后的物理直觉原始资料说“replace FFNN with CNNs or Transformers”但没说为什么换、怎么换。这里全是经验之谈FFNN全连接网络适用场景手工特征输入如16维向量。结构极简输入层→ReLU激活的隐藏层128节点→ReLU激活的隐藏层128节点→输出层3节点对应上/下/不动。参数量2万CPU都能训。关键技巧是输出层不加激活函数——Q值可以是任意实数sigmoid或tanh会把它压缩到[-1,1]扭曲价值尺度。CNN卷积网络适用场景原始像素输入。典型结构参考DQN论文输入(4,84,84) 四帧堆叠卷积132个8×8滤波器步长4ReLU → 输出(32,20,20)卷积264个4×4滤波器步长2ReLU → 输出(64,9,9)卷积364个3×3滤波器步长1ReLU → 输出(64,7,7)全连接64×7×73136维展平 → 512节点ReLU → 输出3维Q值为什么是这个结构8×8大滤波器抓全局运动趋势球飞向哪4×4中等滤波器抓局部交互球碰挡板3×3小滤波器精修细节。步长设计确保感受野覆盖全图。我在复现时发现去掉第三层卷积性能掉15%——说明细节特征对精准拦截至关重要。Transformer谨慎尝试。它擅长长序列但乒乓状态序列短4帧自注意力计算开销大。除非你扩展到百帧历史或加入声音/文本多模态否则CNN仍是性价比之王。3.4 动作空间Action Space三选一的优雅与“动作爆炸”的灾难原始资料强调“only three possible actions”这恰恰是Q学习的舒适区。为什么因为Q网络输出层只有3个神经元训练目标明确让正确动作的Q值尽可能高错误动作的Q值尽可能低。但一旦动作空间扩大问题就来了游戏场景赛车游戏有“油门/刹车/左转/右转/手刹”5个离散动作或更糟——方向盘角度连续0°~360°工业场景机械臂有7个关节每个关节角度需精确控制。此时Q网络输出层要从3维暴涨到5维、50维甚至上千维。后果是计算爆炸每次更新都要计算maxₐ Q(S,a)对上千个动作求最大值GPU也扛不住样本效率暴跌探索上千个动作需要海量交互训练周期从天延长到月过拟合风险网络可能只记住了少数高频动作的Q值对冷门动作预测失真。这就是原始资料说“Q learning can’t be used when output layer is huge”的根源。解决方案不是硬刚而是范式切换用Actor-Critic架构让Actor网络直接输出动作如高斯分布的均值/方差Critic网络只评估当前策略价值。V函数在此时反而更有优势——它只输出单个标量V(S)不关心具体动作天然规避动作维度灾难。但V函数的缺陷是它无法指导“该做什么”只能回答“当前状态好不好”。所以实际项目中我们常把V函数作为基线Baseline配合策略梯度方法如PPO使用。记住Q学习的优雅建立在动作空间可控的前提下一旦失控及时转向策略梯度是资深工程师的必备素养。4. 实操流程详解从零搭建DQN乒乓AI的完整链路4.1 环境准备Gym、PyTorch与自定义乒乓环境别急着写Q网络先搞定“游戏沙盒”。推荐用OpenAI Gym的PongNoFrameskip-v4它已封装好乒乓环境、状态预处理灰度、裁剪、堆叠和奖励逻辑。安装命令pip install gym[atari] torch torchvision但要注意Atari环境需额外安装atari-py和ale-py且Linux/Mac更稳定。Windows用户建议用WSL2。如果想完全掌控可手写简化版乒乓环境PongEnv类核心代码如下import numpy as np class PongEnv: def __init__(self): self.screen_width, self.screen_height 400, 300 self.ball {x: 200, y: 150, vx: 3, vy: 2} # 初始位置和速度 self.paddle {y: 150, height: 50, vy: 0} # 挡板y坐标和高度 self.action_space [0, 1, 2] # 0:上, 1:下, 2:不动 self.observation_space (4, 84, 84) # 四帧堆叠 def step(self, action): # 执行动作更新挡板位置 if action 0: # 上 self.paddle[y] max(25, self.paddle[y] - 5) elif action 1: # 下 self.paddle[y] min(275, self.paddle[y] 5) # 更新球位置 self.ball[x] self.ball[vx] self.ball[y] self.ball[vy] # 碰撞检测简化版 reward 0.0 done False if self.ball[x] 10: # 球碰到左墙AI挡板侧 if abs(self.ball[y] - self.paddle[y]) 25: # 挡到球 reward 1.0 self.ball[vx] * -1 # 反弹 else: # 丢球 reward -1.0 done True elif self.ball[x] 390: # 球碰到右墙对手侧 self.ball[vx] * -1 # 边界反弹 if self.ball[y] 0 or self.ball[y] 300: self.ball[vy] * -1 # 构造观测这里返回手工特征向量 state np.array([ self.ball[x]/400, self.ball[y]/300, self.ball[vx]/5, self.ball[vy]/5, self.paddle[y]/300 ], dtypenp.float32) return state, reward, done, {} def reset(self): # 重置球和挡板位置 self.ball {x: 200, y: 150, vx: np.random.choice([-3,3]), vy: np.random.randint(-2,3)} self.paddle {y: 150, height: 50, vy: 0} return self._get_state()这个step()方法返回(state, reward, done, info)四元组完美契合DQN接口。关键点reset()时球速随机化避免AI记住固定轨迹doneTrue标志一局结束触发重置。环境是地基地基不牢上层建筑全塌。4.2 DQN网络实现PyTorch版带目标网络与双Q技巧Q网络是核心但原始资料没给代码。以下是生产级PyTorch实现包含所有稳定训练的关键组件import torch import torch.nn as nn import torch.optim as optim import numpy as np class DQNetwork(nn.Module): def __init__(self, state_dim, action_dim, hidden_dim128): super(DQNetwork, self).__init__() # 网络主体输入状态输出各动作Q值 self.network nn.Sequential( nn.Linear(state_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, hidden_dim), nn.ReLU(), nn.Linear(hidden_dim, action_dim) # 输出层无激活 ) def forward(self, x): return self.network(x) class DQNAgent: def __init__(self, state_dim, action_dim, lr1e-4, gamma0.99, epsilon_start1.0, epsilon_end0.01, epsilon_decay0.995): self.state_dim state_dim self.action_dim action_dim self.gamma gamma self.epsilon epsilon_start self.epsilon_end epsilon_end self.epsilon_decay epsilon_decay # 主网络用于选择动作和计算当前Q self.q_network DQNetwork(state_dim, action_dim) # 目标网络用于计算目标Q延迟更新 self.target_network DQNetwork(state_dim, action_dim) self.target_network.load_state_dict(self.q_network.state_dict()) self.optimizer optim.Adam(self.q_network.parameters(), lrlr) self.loss_fn nn.MSELoss() # 经验回放缓冲区 self.replay_buffer [] self.buffer_size 100000 self.batch_size 32 def select_action(self, state, trainingTrue): ε-greedy策略训练时探索测试时利用 if training and np.random.random() self.epsilon: return np.random.randint(self.action_dim) # 随机选动作 else: state_tensor torch.FloatTensor(state).unsqueeze(0) # 加batch维 with torch.no_grad(): q_values self.q_network(state_tensor) return q_values.argmax().item() # 选Q值最大的动作 def store_transition(self, state, action, reward, next_state, done): 存入经验回放池 self.replay_buffer.append((state, action, reward, next_state, done)) if len(self.replay_buffer) self.buffer_size: self.replay_buffer.pop(0) # FIFO def train(self): 训练主循环 if len(self.replay_buffer) self.batch_size: return 0.0 # 数据不足跳过 # 随机采样一批经验 batch np.random.choice(len(self.replay_buffer), self.batch_size, replaceFalse) states, actions, rewards, next_states, dones [], [], [], [], [] for idx in batch: s, a, r, s_, d self.replay_buffer[idx] states.append(s) actions.append(a) rewards.append(r) next_states.append(s_) dones.append(d) # 转tensor states torch.FloatTensor(np.array(states)) actions torch.LongTensor(np.array(actions)) rewards torch.FloatTensor(np.array(rewards)) next_states torch.FloatTensor(np.array(next_states)) dones torch.BoolTensor(np.array(dones)) # 计算当前Q值gather选中动作的Q current_q_values self.q_network(states).gather(1, actions.unsqueeze(1)) # 计算目标Q值用目标网络预测next_state的max Q但用主网络选动作Double DQN with torch.no_grad(): next_q_values self.q_network(next_states) # 主网络选动作 next_actions next_q_values.argmax(dim1, keepdimTrue) target_q_values self.target_network(next_states).gather(1, next_actions) # 贝尔曼更新R γ * maxQ(S,a*)若done则只取R target_q_values rewards.unsqueeze(1) self.gamma * target_q_values * (~dones.unsqueeze(1)) # 计算损失并更新 loss self.loss_fn(current_q_values, target_q_values) self.optimizer.zero_grad() loss.backward() self.optimizer.step() # 衰减ε self.epsilon max(self.epsilon_end, self.epsilon * self.epsilon_decay) return loss.item() def update_target_network(self): 定期同步目标网络权重 self.target_network.load_state_dict(self.q_network.state_dict())这段代码实现了三大稳定技巧目标网络Target Networktarget_network参数冻结每N步才从q_network复制一次。避免Q值更新时目标值“追着跑”导致震荡Double DQN用主网络选next_state下的最优动作用目标网络评估该动作的Q值。解决Q值过高估计问题经验回放store_transition和train中随机采样打破数据相关性。注意select_action里的epsilon_decay不是线性衰减而是指数衰减0.995^t前期探索充分后期专注利用。我在实测中发现epsilon_decay0.995比0.999收敛快3倍因为后者前期太“保守”学不到关键模式。4.3 训练循环与超参调优日志、保存与早停的艺术有了网络和环境训练循环就是胶水。但高手和新手的区别往往在循环里的细节import time from collections import deque def train_agent(env, agent, num_episodes10000, target_update_freq1000, save_freq1000, log_freq100): scores deque(maxlen100) # 滑动窗口记录最近100局分数 start_time time.time() for episode in range(1, num_episodes 1): state env.reset() total_reward 0 done False while not done: action agent.select_action(state, trainingTrue) next_state, reward, done, _ env.step(action) agent.store_transition(state, action, reward, next_state, done) # 每步都训练在线学习 loss agent.train() state next_state total_reward reward scores.append(total_reward) avg_score np.mean(scores) # 定期更新目标网络 if episode % target_update_freq 0: agent.update_target_network() # 日志输出 if episode % log_freq 0: elapsed time.time() - start_time print(fEpisode {episode}/{num_episodes} | fScore: {total_reward:.1f} | fAvg Score (100): {avg_score:.2f} | fEpsilon: {agent.epsilon:.3f} | fTime: {elapsed/60:.1f}m) # 保存模型 if episode % save_freq 0: torch.save(agent.q_network.state_dict(), fdqn_pong_episode_{episode}.pth) # 早停连续100局平均分18满分21视为训练完成 if len(scores) 100 and avg_score 18.0: print(fTraining converged at episode {episode}!) break return scores # 启动训练 env PongEnv() # 或 gym.make(PongNoFrameskip-v4) agent DQNAgent(state_dim5, action_dim3) # 手工特征5维 scores train_agent(env, agent, num_episodes5000)关键经验早停Early Stopping不盲目跑满10000局。设定合理阈值如平均分18达标即停省时省力模型保存不仅存最终模型更要存中间检查点save_freq1000。某次训练崩溃你还能从第4000局继续而不是重头来过日志粒度log_freq100够用太频繁刷屏太稀疏错过关键拐点。日志里必含Epsilon它是探索强度的晴雨表——如果1000局后还0.5说明衰减太慢时间监控elapsed计算让训练可预期。我曾因epsilon_decay设错导致训练卡在探索阶段3小时只跑了200局日志时间戳立刻暴露问题。超参调优口诀学习率lr1e-4太大震荡太小收敛慢。Adam默认值通常最优折扣因子γ0.99乒乓是短周期游戏γ不宜过大如0.999否则AI过度看重遥远未来忽略眼前拦截缓冲区大小10万够存几千局经验又不至于OOM批量大小batch_size32GPU显存友好梯度估计方差适中。最后提醒训练过程必然波动。某局突然得-21分被碾压别慌——这是AI在探索新策略。看滑动平均分不是单局分。4.4 测试与可视化如何证明AI真的“会打”训练完模型别急着庆祝。验证环节比训练更考验功力。标准流程纯测试模式关闭ε-greedy探索trainingFalse让AI只用当前最优策略多局平均运行100局统计胜率、平均得分、最长连续胜利局数行为可视化录屏或绘图看AI是否展现“智能”行为。以下测试脚本附带关键分析def test_agent(env, agent, num_episodes100, renderTrue): scores [] wins 0 for episode in range(num_episodes): state env.reset() total_reward 0 done False step_count 0 # 存储轨迹用于分析 states, actions, rewards [], [], [] while not done and step_count 10000: # 防死循环 if render: env.render() # 如果环境支持渲染 action agent.select_action(state, trainingFalse) # 纯利用 next_state, reward, done, _ env.step(action) states.append(state.copy()) actions.append(action) rewards.append(reward) state next_state total_reward reward step_count 1 scores.append(total_reward) if total_reward 0: # 简单胜率得分0即赢乒乓先得21分者胜但简化版用净胜分 wins 1 # 分析单局打印关键帧 if episode 0: print(fTest Episode 0: Total Steps{step_count}, Final Score{total_reward}) # 找出AI首次失误的时刻 for i, r in enumerate(rewards): if r -1.0: # 丢球惩罚 print(f First miss at step {i}, ball state: {states[i][:2]}) break print(f\nTest Results over {num_episodes} episodes:) print(f Win Rate: {wins/num_episodes*100:.1f}%) print(f Avg Score: {np.mean(scores):.2f} ± {np.std(scores):.2f}) print(f Max Score: {np.max(scores)}, Min Score: {np.min(scores)}) return scores # 加载训练好的模型测试 agent.q_network.load_state_dict(torch.load(dqn_pong_episode_5000.pth)) test_scores test_agent(env, agent, num_episodes100, renderFalse)可视化分析技巧热力图统计AI在不同球位置x,y下选择“下”动作的频率应呈现清晰的斜向高亮带——证明它学会了预判球轨Q值曲线在固定状态S下记录每步的Q(S,上)、Q(S,下)、Q(S,不动)看它们是否随训练逐渐分离下上不动失败回溯当AI丢球时提取丢球前5步的状态和动作人工检查是挡板没到位还是球速超出预测范围。这能定位模型弱点。我在实测中发现一个真正合格的乒乓AI应具备胜率95%对随机对手平均得分15满分21失误模式可解释比如总在球速4时丢球提示需增强高速状态训练。如果达不到别怪代码——回头检查奖励设计、状态特征或ε衰减策略。5. 常见问题与排查技巧实录那些文档不会写的坑5.1 Q值崩坏从“稳步上升”到“全为NaN”的断崖式崩溃现象训练初期Q值缓慢增长某次更新后所有Q值突变为nan后续损失为nan模型报废。根因梯度爆炸。当网络输出极大正值或负值经过MSE损失计算梯度反传时数值溢出。常见于学习率过大如lr1e-3奖励未缩放如丢球-100得分100导致Q值范围失控网络初始化不当如全零权重ReLU后全死

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2633460.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！