AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2025-12-01 05:00
翻译成中文
使用执行反馈强化学习来训练高级调度程序以实现长期 GUI 自动化
任务
训练
长期
模型
能力
arXiv:2511.22235v1 公告类型:新 摘要:大型视觉语言模型(VLM)的快速发展极大地推动了GUI Agent的研究。然而,GUI 代理在处理长期任务方面仍然面临重大挑战。首先,单智能体模型难以平衡高层能力和低层执行能力,普遍存在责任耦合和能力冲突的问题。其次,智能体缺乏对任务状态的认识,导致长期任务的进度丢失。为了应对这些挑战,我们提出了一种分阶段执行反馈强化学习算法。与训练统一的策略模型不同,我们专注于训练高级调度模型。具体来说,我们提出并训练两个代理:一个协调员,负责战略规划和任务分解;状态跟踪器,负责上下文压缩和信息管理,以维护任务的状态和一致性。基于此,我们构建了 Coordinator-Executor-State Tracker (CES) 多智能体框架,该框架可以与任何低级 Executor 模型集成,通过任务调度和状态管理协助 Executor 解决长期任务。长视野任务基准实验表明,CES显着增强了系统的规划和状态管理能力。此外,分析证实,我们训练的高级调度模块是一个可泛化的、即插即用的模块,可以显着增强各种执行器的长期能力。代码可在 https://github.com/hehehahi4/CES 获取。
查看原始链接
相关文章推荐
共同进化代理:从失败中学习作为硬性负面因素
2025-12-01
嵌入式通用预测智能:多智能体学习的连贯框架
2025-12-01
WearVQA:以自我为中心的真实现实场景中可穿戴设备的视觉问答基准
2025-12-01
返回首页