来源:ArXiv AI 2026-06-29 04:00

扎根迭代语言规划:参数化世界模型如何减少 LLM 代理中的幻觉传播

代理 世界 模型 幻觉 语言
arXiv:2606.27806v1 公告类型:新 摘要:语言代理的世界模型有两种有用的形式。基于代理的世界模型调用LLM API并用语言灵活地进行推理,但其错误表现为幻觉的状态变化,很难用普通的回归损失来评分。参数化世界模型是经过训练的转换预测器;它的错误更容易用 NodeMSE、增量准确度和有效性准确度等数量来衡量,但作为独立规划器,它通常较弱。我们在四个图结构规划基准上对这两个系列进行了比较,并为基于代理的案例引入了操作幻觉指标。这种比较激发了 \textbf{Grounded Iterative Language Planning} (GILP),它只训练一个小的参数化主干,并将其与基于 API 的代理推理相结合。主干网提供有效的操作、预测的状态增量、风险和价值;法学硕士起草一份行动和想象的增量;当两者不一致时,一致性门会要求修改。在真实的 GPT-4o-mini 调用中,GILP 将幻觉状态率从 0.176 降低到 0.035。在校准的模拟器消融中,它将成功率从 0.668 提高到 0.838,同时仅增加约 22% 的额外 LLM 调用。

相关文章推荐

返回首页