AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-03-27 04:00
翻译成中文
AI 代理的高效基准测试
代理
评估
基准
任务
排名
arXiv:2603.23749v1 公告类型:新 摘要:在综合基准上评估人工智能代理的成本很高,因为每次评估都需要通过工具使用和多步骤推理进行交互式部署。我们研究小任务子集是否可以以低得多的成本保持代理排名。与静态语言模型基准不同,代理评估受到支架驱动的分布变化的影响,因为性能取决于包装底层模型的框架。在 8 个基准、33 个代理支架和 70 多个模型配置中,我们发现绝对分数预测在这种转变下下降,而排名顺序预测保持稳定。利用这种不对称性,我们提出了一种简单的免优化协议:仅在具有中间历史通过率(30-70%)的任务上评估新代理。这种中等难度的过滤器由项目响应理论推动,将评估任务的数量减少了 44-70%,同时在支架和时间变化下保持高等级保真度。它提供了比随机抽样更可靠的排名,随机抽样在种子之间表现出很高的方差,并且在分布转移下优于贪婪的任务选择。这些结果表明可靠的排行榜排名不需要完整的基准评估。
查看原始链接
相关文章推荐
使用 PyTorch DDP 构建生产级多节点训练管道
2026-03-27
Python 量子计算初学者指南
2026-03-27
ElevenLabs 语音 AI 如何取代仓库和制造运营中的屏幕
2026-03-27
返回首页