AI Insight Hub
图片转PPT
Image2PPT
图片转PPT神器
首页
分类
关于
管理后台
首页
分类
关于
管理后台
来源:ArXiv AI
2025-10-09 04:00
翻译成中文
代理搜索中的有益推理行为以及获得它们的有效后训练
搜索
代理
行为
推理
模型
arXiv:2510.06534v1 公告类型:新 摘要:代理搜索利用大型语言模型(LLM)来解释复杂的用户信息需求,并执行规划、搜索和合成信息的多步骤过程以提供答案。在与检索系统和更广泛的网络交互时,这种范例给法学硕士的推理和代理能力带来了独特的挑战。在本文中,我们提出了一种基于推理驱动的 LLM 管道来研究代理搜索中的有效推理行为模式。使用这个管道,我们分析了成功的代理搜索轨迹,并确定了四种有益的推理行为:信息验证、权威评估、自适应搜索和错误恢复。基于这些发现,我们提出了一种称为行为启动的技术来训练更有效的代理搜索模型。它综合了表现出这四种行为的代理搜索轨迹,并通过监督微调(SFT)和标准强化学习(RL)将它们集成到代理搜索模型中。三个基准(GAIA、WebWalker 和 HLE)的实验表明,与使用 RL 直接训练代理搜索模型相比,行为启动在 Llama3.2-3B 和 Qwen3-1.7B 中产生了超过 35% 的增益。至关重要的是,我们证明了 SFT 数据中所需的推理行为,而不是最终答案的正确性,是 RL 后实现强大最终性能的关键因素:对具有理想推理行为但不正确答案的轨迹进行微调,比对具有正确答案的轨迹进行微调会带来更好的性能。我们的分析进一步揭示了潜在的机制:引入的推理行为赋予模型更有效的探索(更高的 pass@k 和熵)和测试时间缩放(更长的轨迹)能力,为 RL 提供了坚实的基础。我们的代码将作为开源发布。
查看原始链接
相关文章推荐
EvoTest:自我改进代理系统的进化测试时学习
2025-10-16
通过目标驱动的学习者状态建模进行个性化学习路径规划
2025-10-16
自适应推理执行器:高效推理的协作代理系统
2025-10-16
返回首页