来源:ArXiv AI 2025-12-01 05:00

使用执行反馈强化学习来训练高级调度程序以实现长期 GUI 自动化

任务 训练 长期 模型 能力
arXiv:2511.22235v1 公告类型:新 摘要:大型视觉语言模型(VLM)的快速发展极大地推动了GUI Agent的研究。然而,GUI 代理在处理长期任务方面仍然面临重大挑战。首先,单智能体模型难以平衡高层能力和低层执行能力,普遍存在责任耦合和能力冲突的问题。其次,智能体缺乏对任务状态的认识,导致长期任务的进度丢失。为了应对这些挑战,我们提出了一种分阶段执行反馈强化学习算法。与训练统一的策略模型不同,我们专注于训练高级调度模型。具体来说,我们提出并训练两个代理:一个协调员,负责战略规划和任务分解;状态跟踪器,负责上下文压缩和信息管理,以维护任务的状态和一致性。基于此,我们构建了 Coordinator-Executor-State Tracker (CES) 多智能体框架,该框架可以与任何低级 Executor 模型集成,通过任务调度和状态管理协助 Executor 解决长期任务。长视野任务基准实验表明,CES显着增强了系统的规划和状态管理能力。此外,分析证实,我们训练的高级调度模块是一个可泛化的、即插即用的模块,可以显着增强各种执行器的长期能力。代码可在 https://github.com/hehehahi4/CES 获取。

相关文章推荐

返回首页