AI Insight Hub - 最新人工智能动态

arXiv:2606.28707v1 公告类型：新摘要：具有可验证奖励的无批评强化学习（RLVR），以组相对策略优化（GRPO）为例，避免了训练价值函数（批评家），并相对于用于对齐大型语言模型的基于批评家的 PPO 管道减少了内存和计算开销。然而，GRPO 式的优势估计取决于提示本地（提示组内）奖励统计数据，并且可能不稳定。特别是，当提示组中的所有推出都收到相同的奖励时，组内奖励方差变为零，并且组标准化为该组带来零优势，从而阻碍了具有二进制验证器的冷启动机制中的学习。我们引入了 BV-Blend，这是一个无批评的框架，通过将即时本地策略统计与语义集群条件历史时刻相结合来稳定优势估计。 BV-Blend 维护每个集群的 EMA 跟踪奖励矩，从均值 (SEM) 代理的标准误差导出置信权重，并使用该权重将历史和提示本地基线和方差统计数据混合为 PPO 式剪辑更新的标准化优势。可验证推理基准的实验表明，BV-Blend 提高了训练稳定性和性能，并且在组归一化方法可能停滞的情况下保持稳健。

BV-Blend：不确定性加权历史基线，实现稳定的无批评 RL 和可验证的奖励

相关文章推荐

开始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 进行构建

在数据科学行为面试中生存

如何最大化 Codex Exec 命令