来源:ArXiv AI 2026-03-12 04:00

IH-Challenge:改善前沿法学硕士教学层次的培训数据集

IH 指令 数据 冲突 进行
arXiv:2603.10521v1 公告类型:新 摘要:指令层次结构 (IH) 定义了法学硕士如何在冲突情况下对系统、开发人员、用户和工具指令进行优先级排序,为解决指令冲突提供具体的、信任有序的策略。 IH 是防御越狱、系统提示提取和代理提示注入的关键。然而,鲁棒的 IH 行为很难训练:IH 失败可能与指令遵循失败混淆,冲突可能很细微,并且模型可以学习过度拒绝等捷径。我们引入强化学习训练数据集 IH-Challenge 来解决这些困难。通过在线对抗性示例生成对 IH-Challenge 上的 GPT-5-Mini 进行微调,在 16 个分布内、分布外和人类红队基准测试中,IH 稳健性平均提高了 +10.0%(84.1% 至 94.1%),将不安全行为从 6.6% 减少至 0.7%,同时提高了一般安全评估的有用性,并使内部静态代理饱和及时进行注入评估,以最小的能力回归。我们发布了 IH-Challenge 数据集 (https://huggingface.co/datasets/openai/ih-challenge) 以支持未来对稳健指令层次结构的研究。

相关文章推荐

返回首页