2025_NIPS_Structural Information-based Hierarchical Diffusion for Offline Reinforcement Learning
文章核心总结与翻译一、主要内容本文针对离线强化学习(Offline RL)中长视野任务的方差累积、计算复杂度高、对离线数据集过度依赖及泛化能力不足等问题,提出了一种基于结构信息的分层扩散框架(SIHD)。该框架核心围绕“自适应多尺度分层构建”“结构信息引导的条件扩散”“结构熵正则化探索”三大模块展开:问题背景:现有分层扩散方法多采用固定的两层结构和单一时间尺度,难以适配多样化任务;离线数据集中的分布偏移易导致外推误差,稀疏奖励场景下长视野决策性能受限。核心设计:从离线轨迹中提取结构信息,通过优化结构熵构建树状状态社区,实现轨迹的自适应多尺度分层分割;量化每个状态社区的结构信息增益,将其作为条件信号融入对应扩散层,替代局部子轨迹的奖励预测;引入结构熵正则化项,鼓励探索离线数据中未充分覆盖的状态,同时限制分布偏移导致的外推误差。实验验证:在D4RL基准测试(含Gym-MuJoCo、Maze2D、AntMaze等任务)中,SIHD在不同质量数据集(Medium-Expert、Medium、Medium-Replay)和长视野稀疏奖励场景下,决策性能和泛化能力均显著优于现有基线方法,最高性能提升达12.6%。二、创新点提出自适应多尺度分层扩散结构:基于状态特
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2430159.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!