AI Insight Hub - 最新人工智能动态

arXiv:2602.04089v1 公告类型：新摘要：当所有与任务相关的信息预先可用时，大型语言模型 (LLM) 可以获得强大的性能，例如在静态预测和指令跟踪问题中。然而，许多现实世界的决策任务本质上都是在线的：关键信息必须通过交互来获取，反馈是延迟的，有效的行为需要随着时间的推移平衡信息收集和利用。虽然情境学习可以在无需更新权重的情况下进行适应，但现有的法学硕士通常很难在此类设置中可靠地利用情境交互体验。在这项工作中，我们表明可以通过培训来解决这一限制。我们引入了 ORBIT，这是一个多任务、多片段的元强化学习框架，可训练法学硕士从上下文中的交互中学习。经过元训练后，一个相对较小的开源模型 (Qwen3-14B) 在完全不可见的环境中表现出显着改善的上下文在线学习，与 GPT-5.2 的性能相匹配，并大幅优于标准 RL 微调。扩展实验进一步揭示了模型大小的一致增益，表明推理时学习决策代理有巨大的空间。复制论文结果的代码可以在 https://github.com/XiaofengLin7/ORBIT 找到。

通过跨情节元强化学习扩展法学硕士的情境在线学习能力

相关文章推荐

提示保真度：衡量人工智能代理实际执行了多少意图

Interfaze：人工智能的未来建立在特定任务的小模型之上

反事实解释的公理基础