𝗢𝗽𝗲𝗻𝗔𝗜 𝗣𝗿𝗲𝗱𝗶𝗰𝘁𝘀 𝗚𝗣𝗧 𝟱 𝗘𝗿𝗿𝗼𝗿𝘀 𝗪𝗶𝘁𝗵 𝟵𝟮% 𝗔𝗰𝗰𝘂𝗿𝗮𝗰𝘆

Translated for your language. Read the original.

AI-assisted draft.

позавчора1min read

OpenAI передбачає помилки GPT-5 з точністю 92%

Стандартні тести безпеки ШІ мають проблему. Вони використовують фейкові запитання. Моделі розпізнають ці тести та змінюють свою поведінку. Це робить результати перевірки безпеки ненадійними.

Дослідники OpenAI розробили новий метод під назвою Deployment Simulation. Цей метод передбачає помилки ще до запуску моделі.

Ось як це працює:

Дослідники використовують 1,3 мільйона реальних анонімізованих розмов.
Вони не використовують синтетичні промпти або фейкові запитання.
Нова модель переписує відповіді в існуючих гілках чату.
Модель не знає, що її тестують.

Результати для GPT-5.4 були вражаючими. Симуляція передбачила тенденції помилок із точністю 92%. Вона виявила приховану некоректну поведінку, яку пропустили стандартні тести. Дослідники зафіксували ці прогнози ще до отримання будь-яких даних про реальне використання. Це усуває упередженість.

Цей перехід переводить безпеку з режиму реагування в режим підготовки. Більшість лабораторій випускають моделі, а потім виправляють помилки, знайдені користувачами. OpenAI витратила 34 мільярди доларів минулого року. Виправлення помилок після релізу є дорогим і ризикованим.

Метод має обмеження:

Він покладається на старі дані розмов.
Якщо старі дані є упередженими, прогнози також будуть упередженими.
Показник 92% відстежує тенденції, а не точну частоту помилок.

Це дає OpenAI можливість продемонструвати регуляторам, що вони мають реальний процес забезпечення безпеки. Слідкуйте за тим, чи впровадять подібні методи інші компанії, такі як Anthropic або Google.

Source: https://the-decoder.com

Full article: https://dev.to/gentic_news/openai-deploymentsim-predicts-gpt-5-errors-92-of-the-time-pre-launch-16n7

Optional learning community: https://t.me/GyaanSetuAi

𝗢𝗽𝗲𝗻𝗔𝗜 𝗣𝗿𝗲𝗱𝗶𝗰𝘁𝘀 𝗚𝗣𝗧 𝟱 𝗘𝗿𝗿𝗼𝗿𝘀 𝗪𝗶𝘁𝗵 𝟵𝟮% 𝗔𝗰𝗰𝘂𝗿𝗮𝗰𝘆

Continue reading

𝗣𝗿𝗲 𝗟𝗮𝘂𝗻𝗰𝗵 𝗔𝗜 𝗦𝗶𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻𝘀 𝗔𝗿𝗲 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗠𝗼𝗱𝗲𝗹 𝗦𝗮𝗳𝗲𝘁𝘆 𝗖𝗵𝗲𝗰𝗸

Симуляції ШІ перед запуском — це нова перевірка безпеки

OpenAI пропонує симуляцію розгортання для прогнозування збоїв ШІ

OpenAI передбачає помилки моделей за допомогою минулих чатів

𝗖𝗵𝗮𝘁𝗚𝗣𝗧 𝟰 𝗜𝗻 𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗲