AI Insight Hub - 最新人工智能动态

arXiv:2603.10521v1 公告类型：新摘要：指令层次结构 (IH) 定义了法学硕士如何在冲突情况下对系统、开发人员、用户和工具指令进行优先级排序，为解决指令冲突提供具体的、信任有序的策略。 IH 是防御越狱、系统提示提取和代理提示注入的关键。然而，鲁棒的 IH 行为很难训练：IH 失败可能与指令遵循失败混淆，冲突可能很细微，并且模型可以学习过度拒绝等捷径。我们引入强化学习训练数据集 IH-Challenge 来解决这些困难。通过在线对抗性示例生成对 IH-Challenge 上的 GPT-5-Mini 进行微调，在 16 个分布内、分布外和人类红队基准测试中，IH 稳健性平均提高了 +10.0%（84.1% 至 94.1%），将不安全行为从 6.6% 减少至 0.7%，同时提高了一般安全评估的有用性，并使内部静态代理饱和及时进行注入评估，以最小的能力回归。我们发布了 IH-Challenge 数据集 (https://huggingface.co/datasets/openai/ih-challenge) 以支持未来对稳健指令层次结构的研究。

IH-Challenge：改善前沿法学硕士教学层次的培训数据集

相关文章推荐

LLM联盟真的需要多样性吗？采用 RLVR 方法进行道德推理的实证研究

CUAAudit：视觉语言模型作为自主计算机使用代理审核员的元评估

通过无奖励自微调代理进行自适应 RAN 切片控制