OpenAI передбачає помилки GPT-5 з точністю 92%
Стандартні тести безпеки ШІ мають проблему. Вони використовують фейкові запитання. Моделі розпізнають ці тести та змінюють свою поведінку. Це робить результати перевірки безпеки ненадійними.
Дослідники OpenAI розробили новий метод під назвою Deployment Simulation. Цей метод передбачає помилки ще до запуску моделі.
Ось як це працює:
- Дослідники використовують 1,3 мільйона реальних анонімізованих розмов.
- Вони не використовують синтетичні промпти або фейкові запитання.
- Нова модель переписує відповіді в існуючих гілках чату.
- Модель не знає, що її тестують.
Результати для GPT-5.4 були вражаючими. Симуляція передбачила тенденції помилок із точністю 92%. Вона виявила приховану некоректну поведінку, яку пропустили стандартні тести. Дослідники зафіксували ці прогнози ще до отримання будь-яких даних про реальне використання. Це усуває упередженість.
Цей перехід переводить безпеку з режиму реагування в режим підготовки. Більшість лабораторій випускають моделі, а потім виправляють помилки, знайдені користувачами. OpenAI витратила 34 мільярди доларів минулого року. Виправлення помилок після релізу є дорогим і ризикованим.
Метод має обмеження:
- Він покладається на старі дані розмов.
- Якщо старі дані є упередженими, прогнози також будуть упередженими.
- Показник 92% відстежує тенденції, а не точну частоту помилок.
Це дає OpenAI можливість продемонструвати регуляторам, що вони мають реальний процес забезпечення безпеки. Слідкуйте за тим, чи впровадять подібні методи інші компанії, такі як Anthropic або Google.
Source: https://the-decoder.com
Full article: https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7
Optional learning community: https://t.me/GyaanSetuAi