来源:ArXiv AI 2026-05-20 04:00

DecisionBench:长期代理工作流程中的紧急授权基准

委托 套件 质量 条件 基准
arXiv:2605.19099v1 公告类型:新 摘要:我们介绍 DecisionBench,它是长期代理工作流程中紧急委托的基准基础。底层修复了任务套件(GAIA、tau-bench、BFCL 多轮)、对等模型池(11 个模型、7 个供应商系列)、委托接口(call_model 加上可选的 read_profile 通道)、确定性技能注释层以及涵盖质量、成本、延迟、委托率、k 路由保真度、供应商自我偏好和反事实委托上限的多轴指标套件。底层对于如何生成或传递对等信息是不可知的,因此学习的路由器、更丰富的对等内存、自适应配置文件构建和多步骤委派都可以根据它进行评估。我们通过对整个池(n=23,375 任务实例)进行五条件参考扫描来表征基底。出现了三个基准级别的发现:(i)在四种意识条件下,平均最终任务质量在统计上无法区分(|beta| <= 0.010,p >= 0.21),因此仅质量评估将错过编排信号; (ii) 在平均质量接近相同的条件下,路由保真度为 1 的范围为 7.5% 到 29.5%,交付渠道(按需工具与预加载描述)主导描述内容; (iii) 反事实上限使完美委托比每个套件的测量性能高出 15-31 个百分点,为未来的编排方法找到了巨大的未实现空间。我们发布了基质、注释层、参考干预套件、分析管道和 220 个每个条件的运行档案。

相关文章推荐

返回首页