AI Insight Hub - 最新人工智能动态

arXiv:2607.01480v1 公告类型：新摘要：具有可验证奖励的强化学习（RLVR）以及最近的自蒸馏变体（例如 SDPO）针对验证者评估每次部署，并根据该情节级信号更新策略。然而，部署中更丰富的程序信息很少被保留或重用。跨情节和时期，模型在不断变化的策略下反复遇到相关问题，产生情节本地更新无法捕获的跨情节信号：哪些策略始终通过验证，哪些故障模式持续存在，哪些模式重复出现。我们提出了程序记忆蒸馏（PMD），它将这些交叉片段信号转换为可重用的程序记忆，并在训练期间将其蒸馏为策略的权重。该内存充当训练支架，被吸收到策略本身中，在推理时产生无内存模型。 PMD 在三个抽象层次上组织记忆：原始轨迹、自我反思的策略和教训，以及跨问题重复出现的更高层次的行为模式，所有这些都是从模型自己的轨迹中在线提取的。受记忆制约的自学教师利用积累的经验来监督学生自己的展示，使学生能够在其参数范围内逐步内化程序知识。核心设计原则是共同进化：策略生成更新内存的部署，内存塑造更新策略的监督。根据经验，在 Qwen3-8B 和 OLMo3-Instruct-7B 中，PMD 在 SCIKNOWEVAL 上比 SDPO 提高了 3.8-5.5%，在 LIVECODEBENCH 上比 SDPO 提高了 7.9-13.6%。共同进化推动了这些成果：在 SCIKNOWEVAL 域中冻结内存或策略跟踪 PMD 超过 10%。

程序记忆蒸馏：自我改进语言模型的在线反思

相关文章推荐

AI 代理解释：什么是 ReAct 循环及其工作原理？

长上下文与短上下文模型：长上下文模型何时获胜？

谷歌 DeepMind 和 A24 宣布建立首个研究合作伙伴关系