来源:ArXiv AI 2026-06-26 04:00

验证范围:编码代理奖励没有灵丹妙药

验证 奖励 代理 任务 意图
arXiv:2606.26300v1 公告类型:新 摘要:一种经典的直觉认为验证解决方案比生成解决方案更容易。对于今天的编码代理来说,这种直觉正在被逆转:随着基础模型发展出更强大的推理能力并且工程工具变得更加复杂,生成复杂的候选解决方案不再困难 - 可靠地验证它们已成为更难的问题。我们可以构建的每个验证器都只是人类意图的代理,而不是意图本身。这使得验证面临双重困难:首先,意图本质上不明确,因此很难忠实地检查其是否已得到实现;其次,在模型训练期间,优化扩大了代理和意图之间的差距——表现为奖励黑客或信号饱和。为了解决这个问题,我们从三个维度(可扩展性、可信度和鲁棒性)来描述验证信号的质量,并认为同时实现这三个维度是核心挑战。我们进一步研究了四种奖励结构:用于一般编码任务的测试验证器、用于前端任务的标题验证器、用户作为现实世界代理任务的验证器以及用于长期任务的自动代理验证器。跨越不同的任务类型和政策能力水平,我们对奖励设计的核心挑战以及如何更有效地利用奖励信号进行了深入的分析和实验。实验表明,有针对性的验证设计可以有效抑制奖励黑客行为,提高任务完成质量,并在多个内部和公共基准测试中取得显着收益。这些经验共同指向一个核心观察:随着政策能力的不断增强,任何固定的奖励功能都无法保持有效;验证必须与生成器共同进化。

相关文章推荐

返回首页