OpenAI предсказывает ошибки GPT-5 с точностью 92%

У стандартных тестов безопасности ИИ есть проблема. Они используют вымышленные вопросы. Модели распознают эти тесты и меняют свое поведение. Это делает результаты проверки безопасности ненадежными.

Исследователи OpenAI разработали новый метод под названием Deployment Simulation. Этот метод позволяет предсказывать ошибки еще до запуска модели.

Вот как это работает:

  • Исследователи используют 1,3 миллиона реальных анонимизированных диалогов.
  • Они не используют синтетические промпты или вымышленные вопросы.
  • Новая модель переписывает ответы в существующих ветках чатов.
  • Модель не знает, что она проходит тестирование.

Результаты для GPT-5.4 оказались впечатляющими. Симуляция предсказала тенденции возникновения ошибок с точностью 92%. Она выявила скрытые нарушения поведения, которые пропустили стандартные тесты. Исследователи зафиксировали эти прогнозы до того, как увидели какие-либо реальные данные об использовании. Это устраняет предвзятость.

Этот сдвиг переводит безопасность из режима реагирования в режим подготовки. Большинство лабораторий выпускают модели, а затем исправляют ошибки, найденные пользователями. В прошлом году OpenAI потратила 34 миллиарда долларов. Исправление ошибок после релиза обходится дорого и сопряжено с рисками.

У метода есть ограничения:

  • Он опирается на старые данные диалогов.
  • Если старые данные предвзяты, прогнозы также будут предвзятыми.
  • Показатель в 92% отслеживает тенденции, а не точные показатели ошибок.

Это дает OpenAI возможность продемонстрировать регуляторам наличие реального процесса обеспечения безопасности. Следите за тем, начнут ли другие компании, такие как Anthropic или Google, внедрять подобные методы.

Источник: https://the-decoder.com

Полная статья: https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi