AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-04-13 04:00
翻译成中文
StaRPO:稳定性增强强化策略优化
稳定性
推理
StaRPO
强化
逻辑
arXiv:2604.08905v1 公告类型:新 摘要:强化学习(RL)可以有效提高大型语言模型在复杂推理任务中的准确性。现有的强化学习策略优化框架依赖最终答案的正确性作为反馈信号,很少捕获推理过程的内部逻辑结构。因此,模型将生成流畅且语义相关的响应,但逻辑上不一致、结构不稳定或冗余。为此,我们提出了 StaRPO,一种稳定性增强的强化学习框架,明确地将推理稳定性纳入优化目标。我们的 StaRPO 将稳定性分解为两个可计算的轻量级指标:用于评估局部逐步一致性的自相关函数(ACF)和用于评估推理轨迹的全局目标导向性的路径效率(PE)。这些稳定性奖励与任务奖励相结合,提供补充和流程感知反馈。我们通过展示 ACF 和 PE 奖励与两个骨干模型上逻辑错误的相关性来验证它们的有效性。对四个推理基准的实验表明,StaRPO 始终优于比较基准,并且可以提高最终答案的准确性和逻辑稳定性。
查看原始链接
相关文章推荐
如何将克劳德代码应用于非技术任务
2026-04-13
如何使用 AWS Lambda 构建有效的奖励函数以进行 Amazon Nova 模型定制
2026-04-13
为什么对人工智能的看法如此分歧
2026-04-13
返回首页