2025_NIPS_Convergence Theorems for Entropy-Regularized and Distributional Reinforcement Learning

news2026/5/8 2:37:56

文章核心总结与创新点主要内容该研究聚焦熵正则化强化学习（ERL）和分布强化学习（DRL）的收敛性问题，针对传统ERL在温度趋近于零时最优策略模糊、DRL缺乏收敛迭代方案的缺陷，提出温度解耦策略（temperature decoupling gambit），构建了可解释、保多样性的最优策略框架，同时建立了首个稳定估计参考最优回报分布的算法。核心创新点温度解耦策略：通过分离目标正则化温度与策略执行温度（要求σ/τ→0，τ→0），保证温度趋近于零时策略及回报分布的收敛性，避免传统ERL的模糊性。参考最优性框架：定义贝尔曼参考最优算子及其唯一不动点，明确参考最优策略的特性，该策略是参考策略在最优动作集上的限制，能最大化状态层面的动作多样性。分布ERL（DERL）算法：提出软分布贝尔曼算子，解决传统DRL在控制场景下的迭代不收敛问题，实现参考最优回报分布的精准估计。理论收敛保证：在离散和连续MDP中，分别证明了策略（总变差/弱收敛）和回报分布（Wasserstein距离收敛）的收敛性，填补了非表格型MDP中ERL收敛理论的空白。翻译部分（Markdown格式）Abstract在寻求最优策略的过程中，强化学习（RL）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2548899.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！