来源:ArXiv AI 2026-05-18 04:00

ICRL:通过强化学习学习将自我批评内化

批评 解决 ICRL 学习 行为
arXiv:2605.15224v1 公告类型:新 摘要:基于大型语言模型的智能体会犯错误,但批评通常可以引导同一模型走向正确的行为。然而,当批评被删除时,模型可能会在同一查询上再次失败,这表明它尚未将批评的指导内化到其底层功能中。与此同时,冻结的批评者无法随着时间的推移提高其反馈质量,从而限制了迭代自我改进的潜力。为了解决这个问题,我们建议通过强化学习(ICRL)来学习内化自我批评,这是一种新颖的框架,可以从共享的骨干网络中联合训练解决者和批评者,将批评引起的成功转化为独立的解决者能力。批评者将根据求解器随后的性能增益获得奖励,从而激励可操作的反馈。为了解决批评条件行为和无批评行为之间的分布转变,ICRL 引入了分布校准重新加权比率,该比率有选择地转移与求解器自己的即时分布兼容的批评引导的改进。此外,按角色进行的群体优势估计可以稳定两个角色的联合优化。这些机制共同确保解决者能够在没有外部批评的情况下学会自我改进,而不是依赖于批评条件的行为。我们使用 Qwen3-4B 和 Qwen3-8B 作为骨干,在跨越代理和数学推理任务的各种基准上评估 ICRL。结果显示出持续的改进,在代理任务上比 GRPO 平均提高 6.4 分,在数学推理上平均提高 7.0 分。值得注意的是,博学的 8B 批评家与 32B 批评家相当,但使用的标记要少得多。该代码可从 https://github.com/brick-pid/ICRL 获取。

相关文章推荐

返回首页