OpenAI 以 92% 的准确率预测 GPT-5 的错误

标准的 AI 安全测试存在一个问题。它们使用虚假的问题。模型能够识别出这些测试并改变其行为方式。这使得安全测试结果变得不可靠。

OpenAI 研究人员创建了一种名为 Deployment Simulation 的新方法。该方法可以在模型发布前预测错误。

其工作原理如下:

  • 研究人员使用了 130 万条真实的、匿名化的对话。
  • 他们不使用合成提示词或虚假问题。
  • 新模型会重写现有聊天线程中的回复。
  • 模型并不知道自己正在接受测试。

GPT-5.4 的结果令人印象深刻。该模拟以 92% 的准确率预测了错误趋势。它发现了标准测试未能发现的隐藏违规行为。研究人员在看到任何实际使用数据之前就锁定了这些预测。这消除了偏差。

这一转变将安全工作从“被动应对”转变为“主动预防”。大多数实验室在发布模型后,再修复用户发现的错误。OpenAI 去年花费了 340 亿美元。在发布后修复错误既昂贵又具有风险。

该方法也有局限性:

  • 它依赖于旧的对话数据。
  • 如果旧数据存在偏差,预测结果也会产生偏差。
  • 92% 这个数字追踪的是趋势,而非准确的错误率。

这为 OpenAI 提供了一种向监管机构展示其拥有真实安全流程的方式。可以关注 Anthropic 或 Google 等其他公司是否会采用类似的方法。

来源:https://the-decoder.com

全文:https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7

可选学习社区:https://t.me/GyaanSetuAi