来源:ArXiv AI 2025-10-10 04:00

基础模型知道如何推理,思维模型知道何时学习

模型 推理 思维 基础 性能
arXiv:2510.07364v1 公告类型:新 摘要:为什么像 DeepSeek R1 这样的思维语言模型的性能优于其基础模型?尽管性能持续提升,但目前尚不清楚思维模型在多大程度上学习全新的推理能力或重新利用现有的基础模型能力。在这项工作中,我们提出了一种混合模型,在适当的时间激活基础模型中的推理机制,以引出思维模型级推理链,这意味着思维模型利用已有的能力。为了奠定我们的分析基础,我们引入了一种无监督、自下而上的方法来揭示思维模型中人类可解释的推理行为。这种方法提供了一种公正的方法来发现推理行为,而无需强加手动或法学硕士衍生的假设。在三个基本模型和四个思维模型中,使用 GSM8K 和 MATH500,我们的混合模型在没有任何权重更新的情况下恢复了与思维模型高达 91% 的性能差距,同时仅控制 12% 的代币。具体来说,我们的经验设置提供了一种简单、因果的方法,通过直接调用基础模型中现有推理机制并测量最终的任务性能来测试它们的有效性。更广泛地说,这些结果重新构建了我们对思维模型如何训练的理解:预训练是模型获得大部分推理机制的时候,而后训练则教导在正确的时间有效部署这些机制,从而能够有效地利用其推理时间计算。

相关文章推荐

返回首页