2025_NIPS_Team-PSRO for Learning Approximate TMECor in Large Team Games via Cooperative Reinforce...

news2026/5/20 18:08:08

文章核心总结与翻译一、主要内容本文聚焦双人零和团队博弈（如桥牌、足球），针对现有算法要么仅适用于小型博弈且有博弈论保证，要么能扩展到大型博弈但缺乏理论保证的问题，提出了两种基于策略空间响应预言机（PSRO）的改进算法，旨在高效学习近似团队协调最大最小均衡（TMECor）。问题背景：双人零和团队博弈中，同队成员共享奖励，对手团队奖励相反，需赛前协同策略但赛中无法通信。现有解决方案分为两类：表格型方法（有博弈论保证但不扩展）、深度强化学习方法（可扩展但易被利用）。核心算法：Team-PSRO：将PSRO从双人博弈扩展到团队博弈，每次迭代中两队通过合作强化学习（采用MAPPO算法）学习针对对手元策略的联合最优响应，当联合最优响应接近最优时，可收敛到TMECor。Team-PSRO Mix-and-Match（Team-PSRO-MM）：在Team-PSRO基础上优化，允许不同联合最优响应中的策略自由组合，扩大策略种群规模，提升收敛速度和性能。实验验证：小型博弈（库恩扑克、说谎者骰子）：表格型Team-PSRO和Team-PSRO-MM收敛到TMECor，且优于虚构团队博弈方法。大型博弈（谷歌研究足球）：基于深度合作强化学习的两种算法均击败自玩强化学习，Team-PSRO-MM表现最优。/

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2628975.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！