来源:ArXiv AI 2026-07-03 04:00

程序记忆蒸馏:自我改进语言模型的在线反思

策略 程序 记忆 内存 蒸馏
arXiv:2607.01480v1 公告类型:新 摘要:具有可验证奖励的强化学习(RLVR)以及最近的自蒸馏变体(例如 SDPO)针对验证者评估每次部署,并根据该情节级信号更新策略。然而,部署中更丰富的程序信息很少被保留或重用。跨情节和时期,模型在不断变化的策略下反复遇到相关问题,产生情节本地更新无法捕获的跨情节信号:哪些策略始终通过验证,哪些故障模式持续存在,哪些模式重复出现。我们提出了程序记忆蒸馏(PMD),它将这些交叉片段信号转换为可重用的程序记忆,并在训练期间将其蒸馏为策略的权重。该内存充当训练支架,被吸收到策略本身中,在推理时产生无内存模型。 PMD 在三个抽象层次上组织记忆:原始轨迹、自我反思的策略和教训,以及跨问题重复出现的更高层次的行为模式,所有这些都是从模型自己的轨迹中在线提取的。受记忆制约的自学教师利用积累的经验来监督学生自己的展示,使学生能够在其参数范围内逐步内化程序知识。核心设计原则是共同进化:策略生成更新内存的部署,内存塑造更新策略的监督。根据经验,在 Qwen3-8B 和 OLMo3-Instruct-7B 中,PMD 在 SCIKNOWEVAL 上比 SDPO 提高了 3.8-5.5%,在 LIVECODEBENCH 上比 SDPO 提高了 7.9-13.6%。共同进化推动了这些成果:在 SCIKNOWEVAL 域中冻结内存或策略跟踪 PMD 超过 10%。

相关文章推荐

返回首页