来源:AI Alignment Forum 2026-06-16 19:55

通过模拟部署在发布前预测 LLM 安全性

部署 模型 模拟 使用 评估

论文链接

在发布新模型之前,实验室不仅需要了解它的功能,还需要了解它在实际使用中的表现,包括它可能在哪里引入新风险。随着能力的增强,这一点变得更加重要。作为部署前安全审查的一部分,我们利用有针对性的评估、红队和其他检查来了解模型行为。我们现在开始使用一种在模型部署发生之前进行模拟的方法,该方法添加了一个补充信号:在候选模型到达用户之前对候选模型的行为进行类似部署的预览。

部署模拟是一种在未来部署发生之前对其进行模拟的方法。我们通过使用新的候选模型以保护隐私的方式重放之前的对话来实现这一点。通过这样做,我们可以研究新模型在发布前在现实环境中的反应,包括是否出现新的不良行为以及它们出现的频率。

在我们的 GPT-5.4 研究中,这些预测提供了丰富的信息。对于生产率变化至少 1.5 倍的类别,部署模拟在 92% 的时间内预测了变化的方向,而根据具有挑战性的提示构建的基线的预测率为 54%。模拟部署在评估意识测量方面也更接近真实的生产流量:传统的评估通常有明显的舞台灯光;生产前缀大多不会。

最困难的情况是代理工具的使用,其中实际行为取决于外部状态:文件系统、连接器、系统调用、网络服务和先前的工具结果。我们通过使用另一个模型来模拟工具响应来解决这个问题,并尽可能访问原始轨迹和时间匹配的代码库。这不是传统评估的替代品,但它是一个有用的补充:安全评估应该通过发布后记分卡进行预测,而不仅仅是障碍课程。

我们已经在模型开发过程中使用了部署模拟的见解来识别传统评估中的盲点,并为缓解措施和部署决策提供信息。随着我们使管道更易于运行,我们期望它在未来的模型开发过程中发挥更大的作用。



讨论

相关文章推荐

返回首页