AI Insight Hub - 最新人工智能动态

arXiv:2603.23749v1 公告类型：新摘要：在综合基准上评估人工智能代理的成本很高，因为每次评估都需要通过工具使用和多步骤推理进行交互式部署。我们研究小任务子集是否可以以低得多的成本保持代理排名。与静态语言模型基准不同，代理评估受到支架驱动的分布变化的影响，因为性能取决于包装底层模型的框架。在 8 个基准、33 个代理支架和 70 多个模型配置中，我们发现绝对分数预测在这种转变下下降，而排名顺序预测保持稳定。利用这种不对称性，我们提出了一种简单的免优化协议：仅在具有中间历史通过率（30-70％）的任务上评估新代理。这种中等难度的过滤器由项目响应理论推动，将评估任务的数量减少了 44-70%，同时在支架和时间变化下保持高等级保真度。它提供了比随机抽样更可靠的排名，随机抽样在种子之间表现出很高的方差，并且在分布转移下优于贪婪的任务选择。这些结果表明可靠的排行榜排名不需要完整的基准评估。

AI 代理的高效基准测试

相关文章推荐

使用 PyTorch DDP 构建生产级多节点训练管道

Python 量子计算初学者指南

ElevenLabs 语音 AI 如何取代仓库和制造运营中的屏幕