AI Insight Hub - 最新人工智能动态

arXiv:2606.10254v1 公告类型：新摘要：虽然大型语言模型（LLM）在解决高中数学方面取得了近乎完美的表现，但它们评估真实人类学生多样化推理过程的能力仍然没有得到充分检验。为了弥补这一差距，我们引入了 \textbf{RealMath-Eval}，这是一个严格注释的基准，包含来自高中的 224 份真实考试答案。我们的初步评估表明，即使是最先进的法学硕士评委在这项任务上也遇到了很大的困难，与专家的人工评分相比，均方误差很高（$\sim$2.96）。为了探究合理的解释，我们将这种表现与控制设置进行了对比，在控制设置中，相同的评委评估合成的 LLM 生成的解决方案。我们发现了一个明显的“评估差距”：法官在合成文本上的准确性和一致性要高得多（MSE $\sim$1.17），但很难推广到真实的学生推理。通过语义嵌入分析，我们发现合成错误会遭受“结构崩溃”，进入可预测的低维线性子空间，而人为错误形成了更加多样化的错误空间。此外，生成概率探测表明，人类推理涉及显着更高的信息论惊喜，这表明学生的推理转换对于当前模型来说更加不符合分布。最后，我们发现表面风格迁移未能弥补这一差距。我们的研究结果表明，当前严重依赖合成数据的法学硕士评估流程可能无法充分捕捉真实学生数学推理的多样性。

RealMath-Eval：为什么 SOTA 评委在真实的人类推理方面遇到困难

相关文章推荐

通过 OLMo 3 的培训追踪评估意识的出现

利用综合基本原理数据进行监督微调会损害现实世界的疾病预测

制度：使用 ActiveGraph 在 LongMemEval 上演示的可审计、保留的改进循环