来源:ArXiv AI 2026-02-06 05:00

通过跨情节元强化学习扩展法学硕士的情境在线学习能力

学习 可以 法学硕士 情境 在线
arXiv:2602.04089v1 公告类型:新 摘要:当所有与任务相关的信息预先可用时,大型语言模型 (LLM) 可以获得强大的性能,例如在静态预测和指令跟踪问题中。然而,许多现实世界的决策任务本质上都是在线的:关键信息必须通过交互来获取,反馈是延迟的,有效的行为需要随着时间的推移平衡信息收集和利用。虽然情境学习可以在无需更新权重的情况下进行适应,但现有的法学硕士通常很难在此类设置中可靠地利用情境交互体验。在这项工作中,我们表明可以通过培训来解决这一限制。我们引入了 ORBIT,这是一个多任务、多片段的元强化学习框架,可训练法学硕士从上下文中的交互中学习。经过元训练后,一个相对较小的开源模型 (Qwen3-14B) 在完全不可见的环境中表现出显着改善的上下文在线学习,与 GPT-5.2 的性能相匹配,并大幅优于标准 RL 微调。扩展实验进一步揭示了模型大小的一致增益,表明推理时学习决策代理有巨大的空间。复制论文结果的代码可以在 https://github.com/XiaofengLin7/ORBIT 找到。

相关文章推荐

返回首页