来源:ArXiv AI 2026-03-02 05:00

ODAR:通过主动推理进行 LLM 推理的有原则的自适应路由

通过 推理 计算 采样 ODAR
arXiv:2602.23681v1 公告类型:新 摘要:大语言模型(LLM)推理的范式正在从参数缩放转向测试时计算缩放,但许多现有方法仍然依赖于统一的强力采样(例如,固定的 N 最佳采样或自一致性),这种采样成本高昂,难以归因,并且可能引发收益递减的过度思考。我们提出了 ODAR-Expert,这是一种自适应路由框架,可通过原则性的资源分配来优化准确性与效率的权衡。 ODAR 使用基于摊销主动推理的难度估计器在启发式快速代理和深思熟虑的慢速代理之间动态路由查询。我们进一步引入了一种自由能原则、风险敏感的融合机制,该机制通过最小化变分自由能目标、平衡对数似然性与认知不确定性(变熵)来选择答案,作为对异构候选人进行临时投票的原则性替代方案。对 23 个基准的广泛评估显示出强劲且一致的收益,包括数学的 98.2% 准确率和 Humanity's Last Exam (HLE) 的 54.8%,同时提高了计算匹配设置下的计算准确率前沿。我们还在完全开源堆栈(Llama 4 + DeepSeek)上验证了可重复性,其中 ODAR 超越了同质采样策略,同时将计算成本降低了 82%。总体而言,我们的结果表明,思考最优扩展需要通过基于自由能源的决策进行自适应资源分配,而不是简单地增加测试时计算。

相关文章推荐

返回首页