2025_NIPS_Convergence Theorems for Entropy-Regularized and Distributional Reinforcement Learning
文章核心总结与创新点主要内容该研究聚焦熵正则化强化学习(ERL)和分布强化学习(DRL)的收敛性问题,针对传统ERL在温度趋近于零时最优策略模糊、DRL缺乏收敛迭代方案的缺陷,提出温度解耦策略(temperature decoupling gambit),构建了可解释、保多样性的最优策略框架,同时建立了首个稳定估计参考最优回报分布的算法。核心创新点温度解耦策略:通过分离目标正则化温度与策略执行温度(要求σ/τ→0,τ→0),保证温度趋近于零时策略及回报分布的收敛性,避免传统ERL的模糊性。参考最优性框架:定义贝尔曼参考最优算子及其唯一不动点,明确参考最优策略的特性,该策略是参考策略在最优动作集上的限制,能最大化状态层面的动作多样性。分布ERL(DERL)算法:提出软分布贝尔曼算子,解决传统DRL在控制场景下的迭代不收敛问题,实现参考最优回报分布的精准估计。理论收敛保证:在离散和连续MDP中,分别证明了策略(总变差/弱收敛)和回报分布(Wasserstein距离收敛)的收敛性,填补了非表格型MDP中ERL收敛理论的空白。翻译部分(Markdown格式)Abstract在寻求最优策略的过程中,强化学习(RL)
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2548899.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!