来源:ArXiv AI 2026-07-01 04:00

RoPoLL:强大的法学硕士评委小组

RoPoLL LLM 法官 法学硕士 小组
arXiv:2606.30931v1 公告类型:新 摘要:LLM 评审团是由 LLM 评估者 (PoLL) 组成的报告共识分数的小组,已成为单一法官 LLM 评估的实用替代方案,但其统计行为仍然知之甚少。我们在 Huber 污染模型下正式确定了 LLM 陪审团,并表明 PoLL 会产生无限制的偏差 在任何积极的污染下,无论陪审团规模如何,只要一名法官以有偏见的、法学硕士典型的方式失败(模式崩溃、阿谀奉承、拒绝安全)。将陪审团共识框架为经典的稳健均值估计,我们提出了 RoPoLL(法学硕士作为法官的稳健小组),它保留了 PoLL 面板,但用稳健的均值估计器替换聚合函数,并用几何中值 (GM) 实例化:免调整,最佳有限样本分解点为 1/2。有限样本误差界和匹配信息论极小极大下界在参数率上一致 sigma*sqrt(d/N) 并在细分底数上相差 sqrt(d) 因子,这是多项式时间 RoPoLL 相对于棘手的 Tukey 半空间中位数所支付的统计计算差距。 13 个开放权重法官 (4B-675B)、三个奖励模型基准和四个腐败制度的比率上升 达到 50%,RoPoLL 在每种有偏见的腐败类型上都领先 PoLL:在匹配计算的跨维度攻击上大约 19%,在重尾拜占庭对手上则高出几个数量级。 38B 的 3 名 RoPoLL 委员会在 HelpSteer-2 上在 30% 双峰随机条件下击败 Mistral-Large-3 (675B) 1.31 倍 腐败,18 倍的参数优势和更高的准确度; Noisy-GT 控制确认溢价是针对有偏差的污染而不是良性的不精确而支付的。

相关文章推荐

返回首页