来源:ArXiv AI
2026-06-01 04:00
MAVEN:提高代理工具调用的泛化能力
推理
代理
工具
MAVEN
验证
arXiv:2605.30738v1 公告类型:新
摘要:跨代理工具调用环境的泛化仍然是可靠的代理推理系统的核心挑战。尽管大型语言模型在各个基准测试中取得了出色的结果,但它们构建推理策略、保留中间状态和跨领域协调工具的能力仍未得到充分探索。我们提出了 MAVEN(模块化代理验证和执行网络),这是一种用于结构化分解、自适应工具编排和中间验证的轻量级符号推理支架。我们跨既定的工具调用基准评估 MAVEN,包括 BFCL v3、TauBench、Tau2Bench、AceBench,并引入 MAVEN-Bench,这是一种用于多步骤数学和物理推理的压力测试基准,具有显式验证和对抗性任务组合。 MAVEN-Bench 暴露了部分推理质量和端到端任务成功之间的巨大差距;在直接 MAVEN-Bench 运行中,MAVEN 将其 GPT-OSS-120b 基本模型的准确率从 48% 提高到 71%,无需额外训练。它还与前沿专有基线保持竞争力,同时使用开放权重主干,估计成本比率约为 1/10,这表明以验证为中心的轻量级支架可以加强组合推理,并激发对野外代理进行更多过程感知评估。