AI Insight Hub - 最新人工智能动态

arXiv:2604.08905v1 公告类型：新摘要：强化学习（RL）可以有效提高大型语言模型在复杂推理任务中的准确性。现有的强化学习策略优化框架依赖最终答案的正确性作为反馈信号，很少捕获推理过程的内部逻辑结构。因此，模型将生成流畅且语义相关的响应，但逻辑上不一致、结构不稳定或冗余。为此，我们提出了 StaRPO，一种稳定性增强的强化学习框架，明确地将推理稳定性纳入优化目标。我们的 StaRPO 将稳定性分解为两个可计算的轻量级指标：用于评估局部逐步一致性的自相关函数（ACF）和用于评估推理轨迹的全局目标导向性的路径效率（PE）。这些稳定性奖励与任务奖励相结合，提供补充和流程感知反馈。我们通过展示 ACF 和 PE 奖励与两个骨干模型上逻辑错误的相关性来验证它们的有效性。对四个推理基准的实验表明，StaRPO 始终优于比较基准，并且可以提高最终答案的准确性和逻辑稳定性。