AI Insight Hub - 最新人工智能动态

arXiv:2603.06064v1 公告类型：新摘要：任务规划，即从初始状态排序行动以达到目标的问题，是自主机器人系统的核心能力要求。大型语言模型（LLM）是否可以与经典符号方法一起作为可行的规划器仍然是一个悬而未决的问题。我们推出 PyPDDLEngine，这是一个开源规划域定义语言 (PDDL) 模拟引擎，它通过模型上下文协议 (MCP) 接口将规划操作公开为 LLM 工具调用。 LLM 不是预先承诺完整的操作序列，而是充当交互式搜索策略，一次选择一个操作，观察每个结果状态，并可以重置和重试。我们在统一的 180 秒预算下对 102 个国际规划竞赛 (IPC) Blocksworld 实例评估了四种方法：作为经典基线的 Fast Downward lama-first 和 seq-sat-lama-2011、直接 LLM 规划 (Claude Haiku 4.5) 以及通过 PyPDDLEngine 的代理 LLM 规划。 Fast Downward 的成功率高达 85.3%。直接和代理 LLM 方法分别实现了 63.7% 和 66.7%，与代理方法相比，虽然每个解决方案的代币成本高出 5.7 美元\x$，但始终有 3 个百分点的优势。在大多数共同解决的困难块中，两种 LLM 方法都比 seq-sat-lama-2011 生成更短的计划，尽管其迭代质量有所提高，这一结果与训练数据回忆而不是通用规划一致。这些结果表明，代理收益取决于环境反馈的性质。编码代理受益于外部接地信号，例如编译器错误和测试失败，而 PDDL 步骤反馈是自我评估的，使代理无需外部验证即可评估自己的进度。

通过逐步 PDDL 模拟进行代理 LLM 规划：经验表征

相关文章推荐

使用 CliqueFlowmer 进行离线材料优化

定量双极论证框架的聚合语义

用于评估新产品概念的交互式多智能体系统