AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2026-06-12 04:00
翻译成中文
Evoflux:紧凑代理可执行工具工作流程的推理时间演化
工具
执行
工作
Evoflux
紧凑
arXiv:2606.12674v1 公告类型:新 摘要:紧凑语言模型 (LM) 降低了工具代理的成本、延迟和部署风险。然而,MCP 风格的工具使用需要的不仅仅是孤立的函数调用:代理必须从实时目录中发现工具,满足模式,保留中间输出之间的依赖关系,并在执行的证据中提供最终响应。小型规划人员经常生成看似合理的工作流程图,但在工具解析、参数验证、依赖性跟踪或执行下却失败了。我们认为,小语料库蒸馏无法很好地处理这种故障模式。几百个教师跟踪可以教授工作流格式,但很少涵盖修复更改工具目录时失败的计划所需的恢复行为。我们引入了 Evoflux,一种推理时进化搜索方法,它将紧凑工具的使用视为可执行工具工作流程的修复。它通过结构化编辑、执行反馈、自适应强度、元引导重新设计和多样性修剪来发展类型化工作流程图。对于跨越实时 MCP 服务器和 250 个工具的保留 MCP-Bench 任务,Evoflux 将小型规划者的执行可行性从大约 3% 提高到 17-24%。相比之下,SFT 和 SFT+DPO 在相同的搜索挖掘数据上表现匹配、表现不佳或低于零样本性能; ReAct 达到了更高的峰值,但方差和代币成本也更高。这些结果表明,在教师跟踪预算稀缺的情况下,基于执行的搜索更加可靠。
查看原始链接
相关文章推荐
构建和评估模型差异代理
2026-06-12
为什么十年前的残留连接仍然为所有人工智能提供动力(以及为什么这是一个问题)
2026-06-12
对严重失调辩论的双方表示同情
2026-06-12
返回首页