来源:ArXiv AI
2026-06-30 04:00
两个精灵游戏:基于审计的人工智能治理的采用和福利
社区
采用
伤害
审计
代理
arXiv:2606.28710v1 公告类型:新
摘要:我们询问在什么条件下,具有危害最小化政策的代理人可以在竞争性市场中取代寻求批准(RLHF)的代理人,以及该政策何时足以防止社区伤害。我们使用进化博弈论(有限群体莫兰-费米成对比较)将这一主题形式化为负和环境中的愿望者事后诸葛亮、同行证词、单调伤害分类账、足够的社区反馈信息密度以及有限的、耗尽的资源池的假设。
我们表明,当许愿者与社区情绪协调程度的先验分布单调、表现出端点反转并具有中心对称配对属性时,采用会受到青睐,并用几个长尾先验(Hill、Pareto、Lomax、Frechet)证明了这一点。在受到青睐的情况下,关键的采用水平将那些回归寻求批准的代理的社区与那些经过审计的代理修复的社区区分开来;超过这个水平,固定是极有可能的结果。我们推导何时可以实现固定,作为群落有效(信息)大小 N_c 的界限,该大小必须足够小,以便在耗尽之前允许固定。我们将它们表示为定理 5.4 和 5.5;代数和有限网格主干在 Lean 4 中经过机器检查,跨越障碍的渐进性保留为明确的假设。
我们表明,具有社区分类账的自我审计代理一般不足以防止社区伤害。充分性取决于代理审计与社区价值观的一致性以及评估危害的时间范围。无论阵营如何,一旦采用达到主导地位,国家就会吸收。在协调下减少伤害的政策会成为一个陷阱,在不一致的情况下对福利不利,甚至在协调下,也会将伤害锁定在采用期限之外。