AI Insight Hub - 最新人工智能动态

arXiv:2604.08865v1 公告类型：新摘要：近端策略优化 (PPO) 是将推理任务中的大型语言模型 (LLM) 与可验证的奖励相结合的核心。然而，由于长期思想链（CoT）范围内时间信用分配的不稳定以及价值模型的过高内存成本，标准代币级 PPO 在这种情况下陷入困境。虽然 GRPO 等不受批评的替代方案可以缓解这些问题，但它们需要多个样本进行基线估计，从而产生大量计算开销，严重限制了训练吞吐量。在本文中，我们介绍了序列级 PPO（SPPO），这是一种可扩展的算法，可以协调 PPO 的样本效率与基于结果的更新的稳定性。 SPPO 将推理过程重新表述为序列级上下文强盗问题，采用解耦标量值函数来导出低方差优势信号，而无需多次采样。对数学基准的大量实验表明，SPPO 显着超越了标准 PPO，并且与计算量大的基于组的方法的性能相匹配，为调整推理 LLM 提供了一个资源高效的框架。