来源:ArXiv AI 2026-06-10 04:00

RealMath-Eval:为什么 SOTA 评委在真实的人类推理方面遇到困难

推理 真实 评估 学生 合成
arXiv:2606.10254v1 公告类型:新 摘要:虽然大型语言模型(LLM)在解决高中数学方面取得了近乎完美的表现,但它们评估真实人类学生多样化推理过程的能力仍然没有得到充分检验。为了弥补这一差距,我们引入了 \textbf{RealMath-Eval},这是一个严格注释的基准,包含来自高中的 224 份真实考试答案。我们的初步评估表明,即使是最先进的法学硕士评委在这项任务上也遇到了很大的困难,与专家的人工评分相比,均方误差很高($\sim$2.96)。为了探究合理的解释,我们将这种表现与控制设置进行了对比,在控制设置中,相同的评委评估合成的 LLM 生成的解决方案。我们发现了一个明显的“评估差距”:法官在合成文本上的准确性和一致性要高得多(MSE $\sim$1.17),但很难推广到真实的学生推理。通过语义嵌入分析,我们发现合成错误会遭受“结构崩溃”,进入可预测的低维线性子空间,而人为错误形成了更加多样化的错误空间。此外,生成概率探测表明,人类推理涉及显着更高的信息论惊喜,这表明学生的推理转换对于当前模型来说更加不符合分布。最后,我们发现表面风格迁移未能弥补这一差距。我们的研究结果表明,当前严重依赖合成数据的法学硕士评估流程可能无法充分捕捉真实学生数学推理的多样性。

相关文章推荐

返回首页