2025_NIPS_Team-PSRO for Learning Approximate TMECor in Large Team Games via Cooperative Reinforce...
文章核心总结与翻译一、主要内容本文聚焦双人零和团队博弈(如桥牌、足球),针对现有算法要么仅适用于小型博弈且有博弈论保证,要么能扩展到大型博弈但缺乏理论保证的问题,提出了两种基于策略空间响应预言机(PSRO)的改进算法,旨在高效学习近似团队协调最大最小均衡(TMECor)。问题背景:双人零和团队博弈中,同队成员共享奖励,对手团队奖励相反,需赛前协同策略但赛中无法通信。现有解决方案分为两类:表格型方法(有博弈论保证但不扩展)、深度强化学习方法(可扩展但易被利用)。核心算法:Team-PSRO:将PSRO从双人博弈扩展到团队博弈,每次迭代中两队通过合作强化学习(采用MAPPO算法)学习针对对手元策略的联合最优响应,当联合最优响应接近最优时,可收敛到TMECor。Team-PSRO Mix-and-Match(Team-PSRO-MM):在Team-PSRO基础上优化,允许不同联合最优响应中的策略自由组合,扩大策略种群规模,提升收敛速度和性能。实验验证:小型博弈(库恩扑克、说谎者骰子):表格型Team-PSRO和Team-PSRO-MM收敛到TMECor,且优于虚构团队博弈方法。大型博弈(谷歌研究足球):基于深度合作强化学习的两种算法均击败自玩强化学习,Team-PSRO-MM表现最优。/
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2628975.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!