AI Insight Hub - 最新人工智能动态

arXiv:2603.10588v1 公告类型：新摘要：具有可验证奖励的强化学习（RLVR）在逻辑推理任务中取得了显着的成功，但大型语言模型（LLM）对齐是否需要根本不同的方法仍不清楚。考虑到道德推理中对多种有效反应的明显容忍，一个自然的假设是，对齐任务本质上需要寻求多样性的分布匹配算法，而不是基于奖励最大化的策略方法。我们在 MoReBench 上进行了首次全面的实证研究，比较这两种范式。为了实现稳定的 RLVR 训练，我们通过训练 Qwen3-1.7B 判断模型来构建基于规则的奖励管道。与我们的假设相反，我们发现分布匹配方法并没有像对齐任务中预期的那样表现出比奖励最大化方法显着的优势。通过语义可视化将高奖励响应映射到语义空间，我们证明道德推理比数学推理表现出更集中的高奖励分布，其中不同的解决策略产生类似的高奖励。这一反直觉的发现解释了为什么模式搜索优化对于对齐任务同样有效或更有效。我们的结果表明，对齐任务本质上并不需要多样性保留算法，并且标准奖励最大化 RLVR 方法可以有效地转移到道德推理，而无需明确的多样性机制。

LLM联盟真的需要多样性吗？采用 RLVR 方法进行道德推理的实证研究

相关文章推荐

CUAAudit：视觉语言模型作为自主计算机使用代理审核员的元评估

通过无奖励自微调代理进行自适应 RAN 切片控制

IH-Challenge：改善前沿法学硕士教学层次的培训数据集