来源:ArXiv AI 2026-06-12 04:00

Evoflux:紧凑代理可执行工具工作流程的推理时间演化

工具 执行 工作 Evoflux 紧凑
arXiv:2606.12674v1 公告类型:新 摘要:紧凑语言模型 (LM) 降低了工具代理的成本、延迟和部署风险。然而,MCP 风格的工具使用需要的不仅仅是孤立的函数调用:代理必须从实时目录中发现工具,满足模式,保留中间输出之间的依赖关系,并在执行的证据中提供最终响应。小型规划人员经常生成看似合理的工作流程图,但在工具解析、参数验证、依赖性跟踪或执行下却失败了。我们认为,小语料库蒸馏无法很好地处理这种故障模式。几百个教师跟踪可以教授工作流格式,但很少涵盖修复更改工具目录时失败的计划所需的恢复行为。我们引入了 Evoflux,一种推理时进化搜索方法,它将紧凑工具的使用视为可执行工具工作流程的修复。它通过结构化编辑、执行反馈、自适应强度、元引导重新设计和多样性修剪来发展类型化工作流程图。对于跨越实时 MCP 服务器和 250 个工具的保留 MCP-Bench 任务,Evoflux 将小型规划者的执行可行性从大约 3% 提高到 17-24%。相比之下,SFT 和 SFT+DPO 在相同的搜索挖掘数据上表现匹配、表现不佳或低于零样本性能; ReAct 达到了更高的峰值,但方差和代币成本也更高。这些结果表明,在教师跟踪预算稀缺的情况下,基于执行的搜索更加可靠。

相关文章推荐

返回首页