AI Insight Hub - 最新人工智能动态

arXiv:2510.06534v1 公告类型：新摘要：代理搜索利用大型语言模型（LLM）来解释复杂的用户信息需求，并执行规划、搜索和合成信息的多步骤过程以提供答案。在与检索系统和更广泛的网络交互时，这种范例给法学硕士的推理和代理能力带来了独特的挑战。在本文中，我们提出了一种基于推理驱动的 LLM 管道来研究代理搜索中的有效推理行为模式。使用这个管道，我们分析了成功的代理搜索轨迹，并确定了四种有益的推理行为：信息验证、权威评估、自适应搜索和错误恢复。基于这些发现，我们提出了一种称为行为启动的技术来训练更有效的代理搜索模型。它综合了表现出这四种行为的代理搜索轨迹，并通过监督微调（SFT）和标准强化学习（RL）将它们集成到代理搜索模型中。三个基准（GAIA、WebWalker 和 HLE）的实验表明，与使用 RL 直接训练代理搜索模型相比，行为启动在 Llama3.2-3B 和 Qwen3-1.7B 中产生了超过 35% 的增益。至关重要的是，我们证明了 SFT 数据中所需的推理行为，而不是最终答案的正确性，是 RL 后实现强大最终性能的关键因素：对具有理想推理行为但不正确答案的轨迹进行微调，比对具有正确答案的轨迹进行微调会带来更好的性能。我们的分析进一步揭示了潜在的机制：引入的推理行为赋予模型更有效的探索（更高的 pass@k 和熵）和测试时间缩放（更长的轨迹）能力，为 RL 提供了坚实的基础。我们的代码将作为开源发布。

代理搜索中的有益推理行为以及获得它们的有效后训练

相关文章推荐

共同进化代理：从失败中学习作为硬性负面因素

使用执行反馈强化学习来训练高级调度程序以实现长期 GUI 自动化

嵌入式通用预测智能：多智能体学习的连贯框架