AI Insight Hub - 最新人工智能动态

arXiv:2606.13720v1 公告类型：新摘要：Arditi 等人。（2024）表明，安全微调聊天模型中的拒绝是由残余流中的单个线性方向介导的，可以通过有害和无害激活的均值差异（DiM）来恢复。我们将基于 DiM 的干预措施（激活添加和定向消融）与源自迭代零空间投影（INLP）的两种干预措施（零空间投影和反事实翻转）在五个开放权重聊天模型上进行比较，询问 INLP 是否可以在转向拒绝方面与 DiM 相匹配，以及其更丰富的参数化是否会产生更多可调整的干预措施。 INLP 反事实翻转在拒绝抑制方面与 DiM 定向消融具有竞争力，而零空间投影始终较弱。将 INLP 限制在提取子空间的主导方向上，可以保留接近基线困惑度时的大部分抑制效果，从而提供可调节的能力。从几何角度来看，这两种 INLP 干预措施落在激活空间的质上不同的区域：零空间投影使有害和无害簇之间的变换激活 \emph{} 崩溃，而反事实翻转将它们移动到相反的簇中，这表明该模型对概念不存在的编码与其相反的不同——这是一个有趣的区别，值得在未来的工作中进一步研究。

超越单一方向的拒绝：Diff-in-Means 和 INLP 的初步比较

相关文章推荐

当样本选择偏差导致模型崩溃时

TwinBI：用于与商业智能仪表板进行高效增强交互的代理数字孪生

YeasierAgent：代理社交沙盒作为意图驱动创建与平台无关的共生代理本机应用程序的画布