Anthropic відновлює глобальний доступ до Fable 5 після заборони уряду США
Anthropic офіційно відновила глобальне розгортання Fable 5, своєї найпотужнішої моделі ШІ, після двотижневого призупинення, санкціонованого урядом США. Заборона була спричинена критичною знахідкою у сфері безпеки, що стосувалася вразливості до джейлбрейку (jailbreak), яка дозволяла моделі обходити встановлені запобіжні механізми безпеки.
Вразливість: від оборонних досліджень до ризику безпеки
Раптове обмеження було наслідком звіту з безпеки від дослідників Amazon, які успішно обійшли протоколи безпеки Fable 5. Дослідники виявили, що модель може ідентифікувати специфічні вразливості програмного забезпечення і, в одному помітному випадку, генерувати функціональний код для їх експлуатації.
Хоча Anthropic охарактеризувала це як «крайній випадок» (edge case), пов'язаний із рутинною оборонною кібербезпечною роботою, потенціал для зловживань вимагав спільного розслідування компанії та державних установ США. Цікаво, що розслідування показало: здатність ідентифікувати ці недоліки не була унікальною для Fable 5; інші моделі, зокрема Claude Opus 4.8, GPT-5.5 та Kimi K2.7, демонстрували подібні можливості. Навіть менші моделі, такі як Claude Haiku 4.5, видавали такі ж результати експлуатації під час тестування.
Впровадження нових класифікаторів безпеки та компроміс із «хибнопозитивними результатами»
Для усунення проблеми Anthropic розгорнула вдосконалений класифікатор безпеки, розроблений для блокування конкретної техніки експлуатації, виявленої у звіті Amazon, із точністю понад 99%. Коли запит користувача активує цей новий рівень захисту, він отримує сповіщення, а запит автоматично перенаправляється на старішу, більш обмежену модель Claude Opus 4.8.
Однак це посилення безпеки має функціональну ціну. Anthropic визнала, що новий класифікатор схильний частіше позначати як підозрілі нешкідливі запити під час стандартних завдань із програмування та налагодження. Цей «запас міцності» створює напруженість між надійністю та зручністю використання — постійна проблема при розгортанні передових моделей, де запобігання небезпечним результатам часто призводить до збільшення кількості «відмов» на законні запити розробників.
Поштовх до галузевих стандартів та державного нагляду
Інцидент із Fable 5 прискорив зусилля Anthropic щодо впровадження формалізованих галузевих стандартів безпеки. Зараз компанія співпрацює з Amazon, Microsoft та Google у межах програми Glasswing, щоб створити структуру для оцінки джейлбрейків та запуску стандартизованих контрзаходів. Для зміцнення цього Anthropic запустила спеціальну команду моніторингу, що працює цілодобово, та нову програму HackerOne, щоб стимулювати дослідників безпеки повідомляти про пов'язані з кібербезпекою джейлбрейки.
Крім того, Anthropic виступає за «суворе регулювання», яке застосовуватиметься однаково до всіх розробників передових моделей. Пропонуючи державним партнерам доступ до чутливих до безпеки моделей ще до їх релізу та виділяючи значні обчислювальні потужності для спільних досліджень, Anthropic позиціонує себе як лідера руху за прозорий нагляд за ШІ, узгоджений із державними органами.
Основні висновки
- Відновлений доступ: Fable 5 знову доступна через Claude.ai, Claude Code та Claude Cowork; користувачі планів Pro, Max та Team отримають доступ до 7 липня.
- Нові рівні захисту: Anthropic впровадила класифікатор безпеки, який блокує 99% виявленої техніки експлуатації, хоча це може збільшити кількість хибнопозитивних результатів у робочих процесах програмування.
- Спільна безпека: Anthropic співпрацює з великими технологічними гравцями та урядом США для встановлення спільних галузевих стандартів моніторингу та реагування на джейлбрейки передових моделей.
