来源:ArXiv AI 2026-06-18 04:00

R2D-RL:用于多智能体强化学习的 RoboCup 2D 足球环境

足球 基于 强化 学习 智能
arXiv:2606.18786v1 公告类型:新 摘要:机器人足球是多智能体强化学习的一个具有挑战性的测试平台,因为它结合了部分可观察性、合作和对抗交互、稀疏奖励和长期战术行为。 RoboCup 2D 足球模拟 (RCSS2D) 提供了成熟的机器人足球平台,但其面向竞赛的服务器-客户端架构很难直接与基于 Python 的现代 MARL 工作流程一起使用。我们引入了 R2D-RL,这是一种强化学习环境,它通过共享内存通信和周期级同步将基于 RCSS2D 和 HELIOS 的玩家客户端连接到 Python MARL 接口。 R2D-RL 支持全场和基于场景的训练,包括可配置的对手、基础离散和混合参数化动作空间、动作掩码、基于预期占有值 (EPV) 的奖励塑造和并行执行。我们提供前端目标场景和 11-vs-11 全场基准,以及基线结果。

相关文章推荐

返回首页