来源:ArXiv AI 2025-12-01 05:00

共同进化代理:从失败中学习作为硬性负面因素

代理 失败 轨迹 学习 改进
arXiv:2511.22254v1 公告类型:新 摘要:大型基础模型的快速进步加速了跨不同领域的任务专用智能体的发展。然而,代理的有效性仍然与训练数据的质量紧密相关,而管理特定于任务的数据集仍然成本高昂,而且在现实场景中通常不可行。最近的工作探索了自我改进的智能体,它们可以按照自己的轨迹自主生成、完善和重新训练。一系列突出的方法通过将预测轨迹与稀缺的真实轨迹配对来进一步利用偏好优化,使代理能够直接从自己的失败中学习。虽然这些方法优于监督微调,但它们在有限的真实监督下严重依赖预测轨迹,这使得它们容易过度拟合。为了解决这个问题,我们提出了一个共同进化的代理框架,其中目标代理与辅助故障代理共同改进。失败代理通过对来自目标和自身的失败轨迹的偏好优化来学习,从而生成接近成功但仍然失败的硬否定。将这些信息丰富的硬否定纳入目标代理的优化中可以锐化决策边界并增强泛化能力。我们对基准数据集的全面分析和实验表明,我们的方法不仅显示出改进的性能,而且还表明,失败可以系统地转化为自我改进代理中结构化且有价值的学习信号,而不是按原样使用。

相关文章推荐

返回首页