来源:ArXiv AI 2025-10-16 04:00

EvoTest:自我改进代理系统的进化测试时学习

代理 测试 学习 EvoTest JTTL
arXiv:2510.13220v1 公告类型:新 摘要:当前人工智能代理的一个根本限制是它们无法在测试时动态学习复杂的技能,在新环境中通常表现得像“聪明但无能的实习生”。这严重限制了它们的实际用途。为了系统地衡量和推动这一挑战的进展,我们首先引入 Jericho Test-Time Learning (J-TTL) 基准。 J-TTL 是一种新的评估设置,其中代理必须连续几个回合玩同一游戏,试图从一个回合到下一个回合提高其性能。在 J-TTL 上,我们发现现有的适应方法(例如反射、记忆或强化学习)很困难。为了解决我们的基准测试带来的挑战,我们提出了 EvoTest,这是一种进化的测试时学习框架,它可以在没有任何微调或梯度的情况下改进代理 - 通过在每个情节后进化整个代理系统。 EvoTest 有两个角色:Actor Agent(玩游戏)和 Evolver Agent(分析剧集记录,为下一次运行提出修改后的配置)。此配置重写提示,通过记录有效的状态操作选择来更新内存,调整超参数,并学习工具使用例程。在我们的 J-TTL 基准测试中,EvoTest 不断提高性能,不仅优于反射和仅内存基线,而且还优于更复杂的在线微调方法。值得注意的是,我们的方法是唯一能够赢得两场比赛(《侦探》和《图书馆》)的方法,而所有基线都未能赢得任何比赛。

相关文章推荐

返回首页