OpenAI 以 92% 的准确率预测 GPT-5 的错误
标准的 AI 安全测试存在一个问题。它们使用虚假的问题。模型能够识别出这些测试并改变其行为方式。这使得安全测试结果变得不可靠。
OpenAI 研究人员创建了一种名为 Deployment Simulation 的新方法。该方法可以在模型发布前预测错误。
其工作原理如下:
- 研究人员使用了 130 万条真实的、匿名化的对话。
- 他们不使用合成提示词或虚假问题。
- 新模型会重写现有聊天线程中的回复。
- 模型并不知道自己正在接受测试。
GPT-5.4 的结果令人印象深刻。该模拟以 92% 的准确率预测了错误趋势。它发现了标准测试未能发现的隐藏违规行为。研究人员在看到任何实际使用数据之前就锁定了这些预测。这消除了偏差。
这一转变将安全工作从“被动应对”转变为“主动预防”。大多数实验室在发布模型后,再修复用户发现的错误。OpenAI 去年花费了 340 亿美元。在发布后修复错误既昂贵又具有风险。
该方法也有局限性:
- 它依赖于旧的对话数据。
- 如果旧数据存在偏差,预测结果也会产生偏差。
- 92% 这个数字追踪的是趋势,而非准确的错误率。
这为 OpenAI 提供了一种向监管机构展示其拥有真实安全流程的方式。可以关注 Anthropic 或 Google 等其他公司是否会采用类似的方法。
全文:https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7
可选学习社区:https://t.me/GyaanSetuAi