清华大学车辆学院团队推出大模型微调领域的新型强化学习算法——STAPO
清华大学车辆学院团队推出大模型微调领域的新型强化学习算法近日清华大学车辆学院李克强院士、李升波教授课题组与滴滴自动驾驶部门联合提出了用于大模型微调训练的 STAPOSpurious-Token-Aware Policy Optimization算法旨在解决强化学习RL训练过程中常见的策略熵失稳和性能震荡衰退难题。以六个基准测试AIME24、AIME25、AMC23、MATH500、Minerva 和 OlympiadBench和三个大模型Qwen3 1.7B、8B 和 14B的实验表明STAPO 超越了GRPO、20-Entropy 和 JustRL等算法达到基准测试任务的SOTA性能。这为以词元token为基本要素的大模型训练技术提供了全新设计方案包括自动驾驶汽车、具身智能机器人的VLM和VLA等模型。该研究的创新在于通过碰撞概率与香农熵的上下界分析从数学层面揭示了词元级策略梯度的范数不仅取决于词元生成概率而且还和词元生成熵token-level generation entropy呈现负相关联系这为大模型强化学习算法的设计提供了全新的理论支撑。首次定义了“虚假词元 (spurious token)”的概念即虽然出现在正确回答中但对推理过程几乎无贡献甚至为负的词元。通过构建涵盖策略梯度范数、生成熵变化方向和学习潜力的三维度分析框架建立了以“低”生成概率、“低”生成熵、“正”优势函数为准则的虚假词元判别条件。为进一步提升以词元为基本要素的大模型推理性能提出了虚假词元剔除机制Silencing Spurious Tokens, S2T将该机制与组优势目标函数相结合进行策略梯度计算所衍生的STAPO算法实现了策略熵稳定性和收敛性能的综合提升典型测试场景超越了主流的Baseline算法。算法演化路径目前强化学习正成为自动驾驶端到端模型、机器人具身智能模型、语言类多模态模型的重要训练算法尤其是在大规模神经网络的微调Fine-tuning阶段具有提升场景泛化性、对齐人机偏好度、增强逻辑推理性能的潜在价值。在大模型强化学习领域学界已演化出两大算法设计范式一是以GRPO、DAPO等为代表的全量词元范式主张数据的全面性和多样性以提升训练效率二是以20-Entropy和本研究提出的STAPO为代表的部分词元范式前者筛选前20%的优势词元进行训练而STAPO则通过剔除极少数虚假词元仅0.01%确保数据纯洁度和训练稳定性。这种从“全量覆盖”向“精细筛选”的范式演进正成为提升模型训练效率与逻辑推理连贯性的关键。STAPO算法原理STAPO算法的核心原理是降低虚假词元对优化的影响同时尽量保留策略对真实错误的纠错能力所采用的方案是剔除虚假词元的S2T机制。S2T机制本质是一个二值掩码函数用于在神经网络反向传播时选择性屏蔽落入破坏性区域的词元梯度。当某个词元同时满足优势函数为正A^i0\hat{A}_i0A^i0、生成概率较低πθ(yi,t)τp\pi_\theta(y_{i,t})\tau_pπθ(yi,t)τp和生成熵较低Htτh\mathcal{H}_t\tau_hHtτh的条件时将其判定为虚假词元并剔除其余情况则保留正常梯度计算。Ii,tS2T{0,if A^i0∧πθ(yi,t)τp∧Htτh1,otherwise. \mathbb{I}^{\text{S2T}}_{i,t} \begin{cases} 0, \text{if } \hat{A}_i 0 \land \pi_\theta(y_{i,t}) \tau_p \land \mathcal{H}_t \tau_h \\ 1, \text{otherwise} \end{cases}.Ii,tS2T{0,1,ifA^i0∧πθ(yi,t)τp∧Htτhotherwise.结合组优势目标函数STAPO算法的总体更新目标定义为JSTAPO(θ)E[∑i,tIi,tS2T⋅min(ρi,tA^i,clip(ρi,t,1−ϵlow,1ϵhigh)A^i)∑i,tIi,tS2T]ρi,t(θ)πθ(yi,t∣x,yi,t)πθold(yi,t∣x,yi,t),A^iR(x,yi)−mean({Rj})std({Rj}), \begin{aligned} \mathcal{J}_{\text{STAPO}}(\theta) \mathbb{E} \left[ \frac{\sum_{i,t} \mathbb{I}^{\text{S2T}}_{i,t} \cdot \min \left( \rho_{i,t} \hat{A}_{i}, \text{clip}(\rho_{i,t}, 1-\epsilon_{\text{low}}, 1\epsilon_{\text{high}}) \hat{A}_{i} \right)}{\sum_{i,t}\mathbb{I}^{\text{S2T}}_{i,t}} \right] \\ \rho_{i,t}(\theta) \frac{\pi_\theta(y_{i,t} \mid \boldsymbol{x}, \boldsymbol{y}_{i,t})}{\pi_{\theta_{\text{old}}}(y_{i,t} \mid \boldsymbol{x}, \boldsymbol{y}_{i,t})} \quad , \quad \hat{A}_i \frac{R(\boldsymbol{x}, \boldsymbol{y}_i) - \text{mean}(\{R_j\})}{\text{std}(\{R_j\})}, \end{aligned}JSTAPO(θ)ρi,t(θ)E∑i,tIi,tS2T∑i,tIi,tS2T⋅min(ρi,tA^i,clip(ρi,t,1−ϵlow,1ϵhigh)A^i)πθold(yi,t∣x,yi,t)πθ(yi,t∣x,yi,t),A^istd({Rj})R(x,yi)−mean({Rj}),其中πθ(yi,t)\pi_\theta(y_{i,t})πθ(yi,t)为当前策略对第ttt个词元的生成概率Ht\mathcal{H}_tHt为该位置的词元生成熵。典型任务测试结果研究团队在Qwen3 1.7B、8B 和 14B Base模型上开展系统评测并在六个数学推理基准上与GRPO、20-Entropy、JustRL等大模型强化学习算法进行对比。结果表明STAPO在训练阶段展现出超越Baseline的策略熵稳定性并在不同评测参数设置下均取得SOTA性能1ρT\rho_{\mathrm{T}}ρT1.0、top-p1.0参数黑色字体平均提升7.13%2ρT\rho_{\mathrm{T}}ρT0.7、top-p0.9 参数灰色字体平均提升3.69%。研究团队进一步对准确率AIME24 Acc32、策略熵Entropy和训练奖励Training Reward等关键指标进行了可视化分析。如下图所示相较于20-Entropy、JustRL算法STAPO的策略熵更加平滑、波动更小体现出更加稳定的探索能力相较于GRPO算法STAPO的策略熵不会退化为零保持了良好的探索能力与此同时STAPO的准确率与训练奖励也获得了更加优异的表现。这一研究还展示了训练过程出现的虚假词元案例。如下图所示低概率的虚假词元通常表现为语义不当、计算错误、格式混乱等形式这类词元容易被训练算法局部放大并干扰整体推理路径相比之下高概率的候选词元更有助于保持语义一致性与推理链条的连贯性。下一步研究团队将推动STAPO算法用于物理世界的具身智能大模型聚焦于自动驾驶端到端模型的微调训练任务以提升高级别自动驾驶系统面向未知场景的泛化能力。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2411183.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!