来源:ArXiv AI 2025-10-09 04:00

代理搜索中的有益推理行为以及获得它们的有效后训练

搜索 代理 行为 推理 模型
arXiv:2510.06534v1 公告类型:新 摘要:代理搜索利用大型语言模型(LLM)来解释复杂的用户信息需求,并执行规划、搜索和合成信息的多步骤过程以提供答案。在与检索系统和更广泛的网络交互时,这种范例给法学硕士的推理和代理能力带来了独特的挑战。在本文中,我们提出了一种基于推理驱动的 LLM 管道来研究代理搜索中的有效推理行为模式。使用这个管道,我们分析了成功的代理搜索轨迹,并确定了四种有益的推理行为:信息验证、权威评估、自适应搜索和错误恢复。基于这些发现,我们提出了一种称为行为启动的技术来训练更有效的代理搜索模型。它综合了表现出这四种行为的代理搜索轨迹,并通过监督微调(SFT)和标准强化学习(RL)将它们集成到代理搜索模型中。三个基准(GAIA、WebWalker 和 HLE)的实验表明,与使用 RL 直接训练代理搜索模型相比,行为启动在 Llama3.2-3B 和 Qwen3-1.7B 中产生了超过 35% 的增益。至关重要的是,我们证明了 SFT 数据中所需的推理行为,而不是最终答案的正确性,是 RL 后实现强大最终性能的关键因素:对具有理想推理行为但不正确答案的轨迹进行微调,比对具有正确答案的轨迹进行微调会带来更好的性能。我们的分析进一步揭示了潜在的机制:引入的推理行为赋予模型更有效的探索(更高的 pass@k 和熵)和测试时间缩放(更长的轨迹)能力,为 RL 提供了坚实的基础。我们的代码将作为开源发布。

相关文章推荐

返回首页