AI Insight Hub - 最新人工智能动态

arXiv:2606.27806v1 公告类型：新摘要：语言代理的世界模型有两种有用的形式。基于代理的世界模型调用LLM API并用语言灵活地进行推理，但其错误表现为幻觉的状态变化，很难用普通的回归损失来评分。参数化世界模型是经过训练的转换预测器；它的错误更容易用 NodeMSE、增量准确度和有效性准确度等数量来衡量，但作为独立规划器，它通常较弱。我们在四个图结构规划基准上对这两个系列进行了比较，并为基于代理的案例引入了操作幻觉指标。这种比较激发了 \textbf{Grounded Iterative Language Planning} (GILP)，它只训练一个小的参数化主干，并将其与基于 API 的代理推理相结合。主干网提供有效的操作、预测的状态增量、风险和价值；法学硕士起草一份行动和想象的增量；当两者不一致时，一致性门会要求修改。在真实的 GPT-4o-mini 调用中，GILP 将幻觉状态率从 0.176 降低到 0.035。在校准的模拟器消融中，它将成功率从 0.668 提高到 0.838，同时仅增加约 22% 的额外 LLM 调用。

扎根迭代语言规划：参数化世界模型如何减少 LLM 代理中的幻觉传播

相关文章推荐

我完成了五年的分析咨询工作：改变我工作方式的 5 堂课

如何选择小型机型和前沿机型

绘制欧洲人工智能劳动力机会图