AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-07-03 04:00
翻译成中文
程序记忆蒸馏:自我改进语言模型的在线反思
策略
程序
记忆
内存
蒸馏
arXiv:2607.01480v1 公告类型:新 摘要:具有可验证奖励的强化学习(RLVR)以及最近的自蒸馏变体(例如 SDPO)针对验证者评估每次部署,并根据该情节级信号更新策略。然而,部署中更丰富的程序信息很少被保留或重用。跨情节和时期,模型在不断变化的策略下反复遇到相关问题,产生情节本地更新无法捕获的跨情节信号:哪些策略始终通过验证,哪些故障模式持续存在,哪些模式重复出现。我们提出了程序记忆蒸馏(PMD),它将这些交叉片段信号转换为可重用的程序记忆,并在训练期间将其蒸馏为策略的权重。该内存充当训练支架,被吸收到策略本身中,在推理时产生无内存模型。 PMD 在三个抽象层次上组织记忆:原始轨迹、自我反思的策略和教训,以及跨问题重复出现的更高层次的行为模式,所有这些都是从模型自己的轨迹中在线提取的。受记忆制约的自学教师利用积累的经验来监督学生自己的展示,使学生能够在其参数范围内逐步内化程序知识。核心设计原则是共同进化:策略生成更新内存的部署,内存塑造更新策略的监督。根据经验,在 Qwen3-8B 和 OLMo3-Instruct-7B 中,PMD 在 SCIKNOWEVAL 上比 SDPO 提高了 3.8-5.5%,在 LIVECODEBENCH 上比 SDPO 提高了 7.9-13.6%。共同进化推动了这些成果:在 SCIKNOWEVAL 域中冻结内存或策略跟踪 PMD 超过 10%。
查看原始链接
相关文章推荐
AI 代理解释:什么是 ReAct 循环及其工作原理?
2026-07-03
长上下文与短上下文模型:长上下文模型何时获胜?
2026-07-03
谷歌 DeepMind 和 A24 宣布建立首个研究合作伙伴关系
2026-07-03
返回首页