AI Insight Hub - 最新人工智能动态

arXiv:2605.30738v1 公告类型：新摘要：跨代理工具调用环境的泛化仍然是可靠的代理推理系统的核心挑战。尽管大型语言模型在各个基准测试中取得了出色的结果，但它们构建推理策略、保留中间状态和跨领域协调工具的能力仍未得到充分探索。我们提出了 MAVEN（模块化代理验证和执行网络），这是一种用于结构化分解、自适应工具编排和中间验证的轻量级符号推理支架。我们跨既定的工具调用基准评估 MAVEN，包括 BFCL v3、TauBench、Tau2Bench、AceBench，并引入 MAVEN-Bench，这是一种用于多步骤数学和物理推理的压力测试基准，具有显式验证和对抗性任务组合。 MAVEN-Bench 暴露了部分推理质量和端到端任务成功之间的巨大差距；在直接 MAVEN-Bench 运行中，MAVEN 将其 GPT-OSS-120b 基本模型的准确率从 48% 提高到 71%，无需额外训练。它还与前沿专有基线保持竞争力，同时使用开放权重主干，估计成本比率约为 1/10，这表明以验证为中心的轻量级支架可以加强组合推理，并激发对野外代理进行更多过程感知评估。

MAVEN：提高代理工具调用的泛化能力

相关文章推荐

使用 Amazon FSx for Lustre 和 TurboQuant 上的 GPUDirect 加速 LLM 模型加载并增加上下文窗口

Amazon 使用 MCP 与时间序列数据库快速集成以获取市场情报

通过加密哈希和以太坊区块链确保数据完整性