AI Insight Hub - 最新人工智能动态

arXiv:2603.23838v1 公告类型：新摘要：终身多代理路径查找（MAPF）对于现代仓库自动化至关重要，这需要多个机器人连续导航无冲突路径以优化整体系统吞吐量。然而，仓库环境的复杂性和终身 MAPF 的长期动态通常需要对经典的基于搜索的求解器进行昂贵的调整。虽然机器学习方法已经被探索过，但它们相对于基于搜索的方法的优越性仍然没有定论。在本文中，我们介绍了强化学习 (RL) 引导的滚动地平线优先规划 (RL-RH-PP)，这是第一个将 RL 与基于搜索的终身 MAPF 规划相结合的框架。具体来说，我们利用经典的优先级规划（PP）作为骨干，因为它在与基于学习的优先级分配策略集成方面简单且灵活。通过将动态优先级分配制定为部分可观察马尔可夫决策过程 (POMDP)，RL-RH-PP 利用终身规划的顺序决策性质，同时将智能体之间复杂的时空交互委托给强化学习。基于注意力的神经网络自回归即时解码优先级顺序，从而使 PP 规划器能够进行高效的顺序单代理规划。实际仓库模拟中的评估表明，RL-RH-PP 在基线中实现了最高的总吞吐量，并有效地概括了代理密度、规划范围和仓库布局。我们的解释分析表明，RL-RH-PP 会主动优先考虑拥塞的座席，并战略性地将座席从拥塞中重定向，从而缓解交通流量并提高吞吐量。这些发现凸显了学习引导方法在增强现代仓库自动化中传统启发法方面的潜力。

学习引导的优先规划，用于仓库自动化中的终身多代理路径查找

相关文章推荐

使用 PyTorch DDP 构建生产级多节点训练管道

Python 量子计算初学者指南

ElevenLabs 语音 AI 如何取代仓库和制造运营中的屏幕