来源:ArXiv AI 2026-03-04 05:00

离线博弈论多智能体强化学习中的保守均衡发现

离线 游戏 策略 学习 方法
arXiv:2603.00374v1 公告类型:新 摘要:离线策略学习通过将算法限制在固定的状态-动作轨迹数据集上,将数据效率发挥到极致。我们在混合动机多智能体环境中考虑问题,其目标是在离线学习约束下解决游戏。我们首先根据候选均衡的选择来构建这个问题。由于数据集只能告知游戏动态的一小部分,因此在离线游戏求解中验证提议的解决方案是否是真正的均衡通常是不可行的。因此,我们根据现有信息考虑候选人之间低后悔(即接近平衡)的相对概率。具体来说,我们通过量化游戏动态不确定性并修改 RL 目标,以偏向于在真实游戏中更可能具有较低遗憾的解决方案,从而扩展了策略空间响应预言机 (PSRO),这是一种在线游戏解决方法。我们进一步提出了一种新颖的元策略求解器,专为离线环境量身定制,以指导 PSRO 中的策略探索。我们将离线强化学习方法中的保守主义原则融入策略探索中,我们的方法被命名为:COffeE-PSRO。实验证明,与最先进的离线方法相比,COffeE-PSRO 能够提取更少遗憾的解决方案,并揭示算法组件、经验游戏保真度和整体性能之间的关系。

相关文章推荐

返回首页