AI Insight Hub - 最新人工智能动态

arXiv:2510.13220v1 公告类型：新摘要：当前人工智能代理的一个根本限制是它们无法在测试时动态学习复杂的技能，在新环境中通常表现得像“聪明但无能的实习生”。这严重限制了它们的实际用途。为了系统地衡量和推动这一挑战的进展，我们首先引入 Jericho Test-Time Learning (J-TTL) 基准。 J-TTL 是一种新的评估设置，其中代理必须连续几个回合玩同一游戏，试图从一个回合到下一个回合提高其性能。在 J-TTL 上，我们发现现有的适应方法（例如反射、记忆或强化学习）很困难。为了解决我们的基准测试带来的挑战，我们提出了 EvoTest，这是一种进化的测试时学习框架，它可以在没有任何微调或梯度的情况下改进代理 - 通过在每个情节后进化整个代理系统。 EvoTest 有两个角色：Actor Agent（玩游戏）和 Evolver Agent（分析剧集记录，为下一次运行提出修改后的配置）。此配置重写提示，通过记录有效的状态操作选择来更新内存，调整超参数，并学习工具使用例程。在我们的 J-TTL 基准测试中，EvoTest 不断提高性能，不仅优于反射和仅内存基线，而且还优于更复杂的在线微调方法。值得注意的是，我们的方法是唯一能够赢得两场比赛（《侦探》和《图书馆》）的方法，而所有基线都未能赢得任何比赛。

EvoTest：自我改进代理系统的进化测试时学习

相关文章推荐

通过目标驱动的学习者状态建模进行个性化学习路径规划

自适应推理执行器：高效推理的协作代理系统

社会模拟中法学硕士授权代理的具有欲望驱动目标优化的情感认知建模框架