来源:ArXiv AI 2026-05-25 04:00

PathCal:用于高效推理的状态感知反射标记校准

推理 标记 PathCal 轨迹 反射
arXiv:2605.23074v1 公告类型:新 摘要:大型推理语言模型(LRM)的出现为通过在推理过程中生成长形式的思想链(CoT)轨迹来扩展测试时间来处理复杂的推理任务铺平了道路。同时,这些轨迹往往包含明确的反思标记,例如“等待”、“但是”和“替代”,分别表示犹豫、修正和考虑替代探索。最近关于测试时间控制的研究利用诸如轻量级手柄之类的标记来进行转向推理,通常将它们视为单个粗粒度类别,而不是区分它们不同的功能角色。在本文中,我们进行了类型抑制和固定前缀干预,揭示了反射标记不仅在功能作用上有所不同,而且在它们发挥最大影响力的时间上也有所不同。具体来说,不同的标记类别以不同的方式影响准确性和生成长度,并且在模型进入稳定的推理轨迹之前,标记的选择是最重要的。受这些发现的启发,我们引入了 PathCal,这是一种新型的免训练解码控制器,它通过区分标记类型并仅在局部不确定状态下进行干预来校准推理路径。在每个解码步骤中,PathCal 利用反射标记的分布来估计维持当前推理轨迹和启动竞争分支之间的局部竞争,并在竞争分支证据变得过多时轻轻地重新平衡标记逻辑。六个推理基准的实验表明,PathCal 实现了更好的效率 - 性能权衡,提高或保持准确性,同时减少生成长度,而不依赖外部验证器或额外采样。

相关文章推荐

返回首页