2025_NIPS_Multi-Agent Reinforcement Learning with Communication-Constrained Priors
一、文章主要内容总结该研究聚焦多智能体强化学习(MARL)在实际场景中面临的通信受限问题(如带宽有限、通信损耗、延迟等),现有方法在可扩展性和鲁棒性上存在不足,难以适配复杂动态环境。为此,提出一套通信受限MARL框架,核心内容包括:问题建模:将带通信约束的多智能体协作任务建模为带通信的分散式部分可观测马尔可夫决策过程(Dec-POMDP),定义二元通信链路参数表征消息可靠性,构建通用通信约束先验模型,统一刻画水下、洞穴、无线网络等不同场景的通信条件。双互信息估计器(Du-MIE):借鉴双互信息估计思想,设计JSD(Jensen-Shannon散度)估计器最大化无损消息与智能体行为的互信息下界,CLUB(对比对数比上界)估计器最小化有损消息与行为的互信息上界,实现两类消息对决策影响的解耦。奖励塑造与算法融合:将互信息估计结果融入全局奖励函数,通过权重系数平衡无损消息的正向作用与有损消息的负向影响;将该框架与MADDPG等MARL算法结合,形成CC-MADDPG。实验验证:在Multi-Agent Particle Environments(MPE)的4类任务场景中,基于马尔可夫型(MBC)和距离型(DBC)两种通信约束基准,验证了算法在不同通信损耗程度下的整体性能、通信先验的影响及双互信息模块的作用,同时测试了多智能体数量扩展时的 scalability。二、文章创新点通用通信
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2565277.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!