来源:ArXiv AI 2026-04-13 04:00

SPPO:用于长视野推理任务的序列级 PPO

PPO 推理 序列 任务 模型
arXiv:2604.08865v1 公告类型:新 摘要:近端策略优化 (PPO) 是将推理任务中的大型语言模型 (LLM) 与可验证的奖励相结合的核心。然而,由于长期思想链(CoT)范围内时间信用分配的不稳定以及价值模型的过高内存成本,标准代币级 PPO 在这种情况下陷入困境。虽然 GRPO 等不受批评的替代方案可以缓解这些问题,但它们需要多个样本进行基线估计,从而产生大量计算开销,严重限制了训练吞吐量。在本文中,我们介绍了序列级 PPO(SPPO),这是一种可扩展的算法,可以协调 PPO 的样本效率与基于结果的更新的稳定性。 SPPO 将推理过程重新表述为序列级上下文强盗问题,采用解耦标量值函数来导出低方差优势信号,而无需多次采样。对数学基准的大量实验表明,SPPO 显着超越了标准 PPO,并且与计算量大的基于组的方法的性能相匹配,为调整推理 LLM 提供了一个资源高效的框架。

相关文章推荐

返回首页