来源:ArXiv AI 2025-10-03 04:00

基准分析:LLM基准的机理诊断

基准 能力 分析 模型 benchmarks
ARXIV:2510.01232V1公告类型:交叉 摘要:大型语言模型通常是根据标准基准分数来判断的,但是这样的分数通常夸大了真正的能力,因为它们掩盖了任务实际上需要的技能。例如,假定ARC测试推理,而Hellaswag旨在评估常识。但是,我们缺乏一种系统的方法来验证这些基准是否实际测量这些标签。我们介绍了基准分析,这是一个诊断框架,将基准性能分解为十个认知扎根的能力。该方法将基于梯度的重要性评分与目标参数消融结合在一起,以计算能力影响评分(AIS),以量化每个能力在给定基准上的模型成功的贡献。 Profiling three instruction-tuned models across ten widely used benchmarks yields four key findings: (i) most benchmarks draw on several abilities rather than one, (ii) datasets with similar labels rely on distinct ability mixtures, (iii) code-generation benchmarks reward broad, multi-skill improvement and thus show only modest gains from narrow domain-specific fine-tuning, and (iv) abilities irrelevant to the task could负面影响性能。因此,基准分析解释了为什么绩效提高并不总是转化为用户感知的能力,并为基准审核和模型解释性提供了透明的工具。

相关文章推荐

返回首页