AI Insight Hub - 最新人工智能动态

arXiv:2511.22226v1 公告类型：新摘要：无模型强化学习的标准理论假设环境动态是静止的，并且代理与其环境脱钩，因此策略被视为与其所处的世界分离。这导致了多智能体环境中的理论挑战，其中其他智能体的学习引起的非平稳性需要基于预测模型的前瞻性学习。为了准确地建模其他智能体，智能体必须考虑到这些其他智能体反过来形成关于它的信念以预测其未来的行为，激励智能体将自己建模为环境的一部分。在这里，基于通用人工智能（AIXI）的基础工作，我们引入了一个以自我预测为中心的前瞻性学习和嵌入式代理的数学框架，其中贝叶斯强化学习代理预测未来的感知输入和他们自己的行为，因此必须解决关于他们自己作为他们所居住的宇宙的一部分的认知不确定性。我们表明，在多智能体设置中，自我预测使智能体能够推理其他运行类似算法的智能体，从而产生新的博弈论解决方案概念和经典解耦智能体无法实现的新颖的合作形式。此外，我们扩展了AIXI理论，研究了从所罗门诺夫先验出发的通用智能嵌入式代理。我们证明这些理想化的智能体可以形成一致的相互预测并实现无限阶心理理论，可能为嵌入式多智能体学习设定黄金标准。

嵌入式通用预测智能：多智能体学习的连贯框架

相关文章推荐

共同进化代理：从失败中学习作为硬性负面因素

使用执行反馈强化学习来训练高级调度程序以实现长期 GUI 自动化

WearVQA：以自我为中心的真实现实场景中可穿戴设备的视觉问答基准