AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-04-13 04:00
翻译成中文
SPPO:用于长视野推理任务的序列级 PPO
PPO
推理
序列
任务
模型
arXiv:2604.08865v1 公告类型:新 摘要:近端策略优化 (PPO) 是将推理任务中的大型语言模型 (LLM) 与可验证的奖励相结合的核心。然而,由于长期思想链(CoT)范围内时间信用分配的不稳定以及价值模型的过高内存成本,标准代币级 PPO 在这种情况下陷入困境。虽然 GRPO 等不受批评的替代方案可以缓解这些问题,但它们需要多个样本进行基线估计,从而产生大量计算开销,严重限制了训练吞吐量。在本文中,我们介绍了序列级 PPO(SPPO),这是一种可扩展的算法,可以协调 PPO 的样本效率与基于结果的更新的稳定性。 SPPO 将推理过程重新表述为序列级上下文强盗问题,采用解耦标量值函数来导出低方差优势信号,而无需多次采样。对数学基准的大量实验表明,SPPO 显着超越了标准 PPO,并且与计算量大的基于组的方法的性能相匹配,为调整推理 LLM 提供了一个资源高效的框架。
查看原始链接
相关文章推荐
如何将克劳德代码应用于非技术任务
2026-04-13
如何使用 AWS Lambda 构建有效的奖励函数以进行 Amazon Nova 模型定制
2026-04-13
为什么对人工智能的看法如此分歧
2026-04-13
返回首页