2025_NIPS_Structural Information-based Hierarchical Diffusion for Offline Reinforcement Learning

news2026/4/2 12:35:33

文章核心总结与翻译一、主要内容本文针对离线强化学习（Offline RL）中长视野任务的方差累积、计算复杂度高、对离线数据集过度依赖及泛化能力不足等问题，提出了一种基于结构信息的分层扩散框架（SIHD）。该框架核心围绕“自适应多尺度分层构建”“结构信息引导的条件扩散”“结构熵正则化探索”三大模块展开：问题背景：现有分层扩散方法多采用固定的两层结构和单一时间尺度，难以适配多样化任务；离线数据集中的分布偏移易导致外推误差，稀疏奖励场景下长视野决策性能受限。核心设计：从离线轨迹中提取结构信息，通过优化结构熵构建树状状态社区，实现轨迹的自适应多尺度分层分割；量化每个状态社区的结构信息增益，将其作为条件信号融入对应扩散层，替代局部子轨迹的奖励预测；引入结构熵正则化项，鼓励探索离线数据中未充分覆盖的状态，同时限制分布偏移导致的外推误差。实验验证：在D4RL基准测试（含Gym-MuJoCo、Maze2D、AntMaze等任务）中，SIHD在不同质量数据集（Medium-Expert、Medium、Medium-Replay）和长视野稀疏奖励场景下，决策性能和泛化能力均显著优于现有基线方法，最高性能提升达12.6%。二、创新点提出自适应多尺度分层扩散结构：基于状态特

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2430159.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！