来源:ArXiv AI 2026-05-11 04:00

Weblica:可视化 Web 代理的可扩展且可重复的培训环境

扩展 环境 Web 网络 训练
arXiv:2605.06761v1 公告类型:新 摘要:网络是复杂的、开放的且不断变化的,这使得扩展可视网络代理的训练数据变得具有挑战性。现有的数据收集尝试仍然仅限于用于监督微调的离线轨迹或用于 RL 训练的少数模拟环境,因此无法捕获网络多样性。我们提出了Weblica(Web Replica),一个用于构建可复制和可扩展的Web环境的框架。我们的框架利用 1) HTTP 级缓存来捕获和重放稳定的视觉状态,同时保留交互行为;2) 基于真实世界网站和核心 Web 导航技能的基于 LLM 的环境合成。使用这个框架,我们将强化学习训练扩展到数千种不同的环境和任务。我们最好的模型 Weblica-8B 在多个 Web 导航基准测试中的性能优于类似大小的开放权重基线,同时使用更少的推理步骤,可通过额外的测试时间计算进行有利的扩展,并且与 API 模型具有竞争力。

相关文章推荐

返回首页