AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-05-11 04:00
翻译成中文
Weblica:可视化 Web 代理的可扩展且可重复的培训环境
扩展
环境
Web
网络
训练
arXiv:2605.06761v1 公告类型:新 摘要:网络是复杂的、开放的且不断变化的,这使得扩展可视网络代理的训练数据变得具有挑战性。现有的数据收集尝试仍然仅限于用于监督微调的离线轨迹或用于 RL 训练的少数模拟环境,因此无法捕获网络多样性。我们提出了Weblica(Web Replica),一个用于构建可复制和可扩展的Web环境的框架。我们的框架利用 1) HTTP 级缓存来捕获和重放稳定的视觉状态,同时保留交互行为;2) 基于真实世界网站和核心 Web 导航技能的基于 LLM 的环境合成。使用这个框架,我们将强化学习训练扩展到数千种不同的环境和任务。我们最好的模型 Weblica-8B 在多个 Web 导航基准测试中的性能优于类似大小的开放权重基线,同时使用更少的推理步骤,可通过额外的测试时间计算进行有利的扩展,并且与 API 模型具有竞争力。
查看原始链接
相关文章推荐
学习词向量进行情感分析:Python 再现
2026-05-11
通过您的 AWS 账户介绍 AWS 上的 Claude Platform:Anthropic 的本机平台
2026-05-11
如何构建克劳德代码驱动的知识库
2026-05-11
返回首页