AI Insight Hub - 最新人工智能动态

arXiv:2606.17328v1 公告类型：新摘要：LLM 代理越来越多地保持跨会话的用户事实的长期记忆。然而，这种记忆通常是通过汇总问题行或情节的准确性来评估的。由于这种方法独立地对问题行进行评分，即使多个问题探讨同一事实，它也无法显示该事实随着条件变化的表现。我们引入了 MemTrace，这是一个基准，其衡量单位是知识点：有关用户的单一类型事实，而不是单个问题。 MemTrace 沿着三个受控维度探测每个事实：内存年龄，由该事实出现在历史记录中的会话数来定义；问题类型，涵盖当前状态、早期状态和变化轨迹；和证据条件，涵盖现有的、缺失的和错误前提相矛盾的设置。通过评估四种范式的 13 种记忆系统配置，我们发现相似的汇总准确性隐藏了不同的失败：恢复事实的当前和早期状态并不意味着跟踪它是如何变化的，安全弃权并不意味着纠正错误的前提。主要瓶颈是证据使用，而不是检索：当系统出现故障时，证据可检索的频率是丢失证据的 10 倍。这些结果表明，改善长期记忆需要更好地利用可获得的证据，而不仅仅是更多的存储或检索。

MemTrace：探究长期记忆中最终准确性的缺失

相关文章推荐

通过数字孪生模拟治疗反应优化的临床决策支持人工智能系统

分布式通用代理网络：架构、关键机制和原型

SpeechDx：临床语音 AI 的多任务基准