AI Insight Hub - 最新人工智能动态

ARXIV：2510.01232V1公告类型：交叉摘要：大型语言模型通常是根据标准基准分数来判断的，但是这样的分数通常夸大了真正的能力，因为它们掩盖了任务实际上需要的技能。例如，假定ARC测试推理，而Hellaswag旨在评估常识。但是，我们缺乏一种系统的方法来验证这些基准是否实际测量这些标签。我们介绍了基准分析，这是一个诊断框架，将基准性能分解为十个认知扎根的能力。该方法将基于梯度的重要性评分与目标参数消融结合在一起，以计算能力影响评分（AIS），以量化每个能力在给定基准上的模型成功的贡献。 Profiling three instruction-tuned models across ten widely used benchmarks yields four key findings: (i) most benchmarks draw on several abilities rather than one, (ii) datasets with similar labels rely on distinct ability mixtures, (iii) code-generation benchmarks reward broad, multi-skill improvement and thus show only modest gains from narrow domain-specific fine-tuning, and (iv) abilities irrelevant to the task could负面影响性能。因此，基准分析解释了为什么绩效提高并不总是转化为用户感知的能力，并为基准审核和模型解释性提供了透明的工具。

基准分析：LLM基准的机理诊断

相关文章推荐

零浪费代理 RAG：设计缓存架构以最大限度地减少延迟和 LLM 成本

情境工程作为您的竞争优势

克劳德技能和子代理：逃离即时工程仓鼠轮