AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-05-20 04:00
翻译成中文
DecisionBench:长期代理工作流程中的紧急授权基准
委托
套件
质量
条件
基准
arXiv:2605.19099v1 公告类型:新 摘要:我们介绍 DecisionBench,它是长期代理工作流程中紧急委托的基准基础。底层修复了任务套件(GAIA、tau-bench、BFCL 多轮)、对等模型池(11 个模型、7 个供应商系列)、委托接口(call_model 加上可选的 read_profile 通道)、确定性技能注释层以及涵盖质量、成本、延迟、委托率、k 路由保真度、供应商自我偏好和反事实委托上限的多轴指标套件。底层对于如何生成或传递对等信息是不可知的,因此学习的路由器、更丰富的对等内存、自适应配置文件构建和多步骤委派都可以根据它进行评估。我们通过对整个池(n=23,375 任务实例)进行五条件参考扫描来表征基底。出现了三个基准级别的发现:(i)在四种意识条件下,平均最终任务质量在统计上无法区分(|beta| <= 0.010,p >= 0.21),因此仅质量评估将错过编排信号; (ii) 在平均质量接近相同的条件下,路由保真度为 1 的范围为 7.5% 到 29.5%,交付渠道(按需工具与预加载描述)主导描述内容; (iii) 反事实上限使完美委托比每个套件的测量性能高出 15-31 个百分点,为未来的编排方法找到了巨大的未实现空间。我们发布了基质、注释层、参考干预套件、分析管道和 220 个每个条件的运行档案。
查看原始链接
相关文章推荐
通过启发嵌入:系统提示贝叶斯优化的动态表示
2026-05-20
干扰感知多任务忘却
2026-05-20
值得信赖的代理网络:对代理网络的信任必须是根深蒂固的,而不是固定的
2026-05-20
返回首页