AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-02-06 05:00
翻译成中文
通过跨情节元强化学习扩展法学硕士的情境在线学习能力
学习
可以
法学硕士
情境
在线
arXiv:2602.04089v1 公告类型:新 摘要:当所有与任务相关的信息预先可用时,大型语言模型 (LLM) 可以获得强大的性能,例如在静态预测和指令跟踪问题中。然而,许多现实世界的决策任务本质上都是在线的:关键信息必须通过交互来获取,反馈是延迟的,有效的行为需要随着时间的推移平衡信息收集和利用。虽然情境学习可以在无需更新权重的情况下进行适应,但现有的法学硕士通常很难在此类设置中可靠地利用情境交互体验。在这项工作中,我们表明可以通过培训来解决这一限制。我们引入了 ORBIT,这是一个多任务、多片段的元强化学习框架,可训练法学硕士从上下文中的交互中学习。经过元训练后,一个相对较小的开源模型 (Qwen3-14B) 在完全不可见的环境中表现出显着改善的上下文在线学习,与 GPT-5.2 的性能相匹配,并大幅优于标准 RL 微调。扩展实验进一步揭示了模型大小的一致增益,表明推理时学习决策代理有巨大的空间。复制论文结果的代码可以在 https://github.com/XiaofengLin7/ORBIT 找到。
查看原始链接
相关文章推荐
提示保真度:衡量人工智能代理实际执行了多少意图
2026-02-06
Interfaze:人工智能的未来建立在特定任务的小模型之上
2026-02-06
反事实解释的公理基础
2026-02-06
返回首页