AI Insight Hub - 最新人工智能动态

arXiv:2605.19099v1 公告类型：新摘要：我们介绍 DecisionBench，它是长期代理工作流程中紧急委托的基准基础。底层修复了任务套件（GAIA、tau-bench、BFCL 多轮）、对等模型池（11 个模型、7 个供应商系列）、委托接口（call_model 加上可选的 read_profile 通道）、确定性技能注释层以及涵盖质量、成本、延迟、委托率、k 路由保真度、供应商自我偏好和反事实委托上限的多轴指标套件。底层对于如何生成或传递对等信息是不可知的，因此学习的路由器、更丰富的对等内存、自适应配置文件构建和多步骤委派都可以根据它进行评估。我们通过对整个池（n=23,375 任务实例）进行五条件参考扫描来表征基底。出现了三个基准级别的发现：（i）在四种意识条件下，平均最终任务质量在统计上无法区分（|beta| <= 0.010，p >= 0.21），因此仅质量评估将错过编排信号； (ii) 在平均质量接近相同的条件下，路由保真度为 1 的范围为 7.5% 到 29.5%，交付渠道（按需工具与预加载描述）主导描述内容； (iii) 反事实上限使完美委托比每个套件的测量性能高出 15-31 个百分点，为未来的编排方法找到了巨大的未实现空间。我们发布了基质、注释层、参考干预套件、分析管道和 220 个每个条件的运行档案。

DecisionBench：长期代理工作流程中的紧急授权基准

相关文章推荐

通过启发嵌入：系统提示贝叶斯优化的动态表示

干扰感知多任务忘却

值得信赖的代理网络：对代理网络的信任必须是根深蒂固的，而不是固定的