Anthropic восстановила глобальный доступ к Fable 5 после запрета правительства США
Anthropic официально возобновила глобальное развертывание Fable 5, своей самой мощной модели ИИ, после двухнедельной приостановки, предписанной правительством США. Запрет был вызван критической уязвимостью безопасности, связанной с джейлбрейком (jailbreak), которая позволяла модели обходить установленные защитные барьеры.
Уязвимость: от оборонительных исследований до риска безопасности
Внезапное ограничение было вызвано отчетом по безопасности от исследователей Amazon, которые успешно обошли протоколы безопасности Fable 5. Исследователи обнаружили, что модель способна выявлять специфические уязвимости программного обеспечения и, в одном примечательном случае, генерировать функциональный код для их эксплуатации.
Хотя Anthropic охарактеризовала это как «крайний случай» (edge case), связанный с рутинной оборонительной кибербезопасностью, потенциальная возможность злоупотребления потребовала проведения совместного расследования компании и государственных органов США. Примечательно, что расследование показало: способность выявлять подобные недостатки не была уникальной для Fable 5; другие модели, включая Claude Opus 4.8, GPT-5.5 и Kimi K2.7, демонстрировали схожие возможности. Даже более мелкие модели, такие как Claude Haiku 4.5, выдавали те же результаты эксплойтов во время тестирования.
Внедрение новых классификаторов безопасности и компромисс с «ложноположительными результатами»
Для устранения проблемы Anthropic развернула улучшенный классификатор безопасности, предназначенный для блокировки конкретной техники эксплуатации, выявленной в отчете Amazon, с точностью более 99%. Когда запрос пользователя активирует этот новый уровень защиты, пользователь получает уведомление, а запрос автоматически перенаправляется на более старую и ограниченную модель Claude Opus 4.8.
Однако эта усиленная безопасность имеет функциональную цену. Anthropic признала, что новый классификатор чаще помечает как подозрительные безобидные запросы во время стандартных задач по написанию и отладке кода. Этот «запас прочности» создает напряженность между надежностью и удобством использования — повторяющаяся проблема при развертывании передовых (frontier) моделей, где предотвращение опасных результатов часто приводит к росту числа «отказов» в выполнении законных запросов разработчиков.
Стремление к отраслевым стандартам и государственному надзору
Инцидент с Fable 5 ускорил усилия Anthropic по внедрению формализованных общеотраслевых стандартов безопасности. В настоящее время компания сотрудничает с Amazon, Microsoft и Google в рамках программы Glasswing для создания структуры оценки джейлбрейков и запуска стандартизированных контрмер. Чтобы усилить это направление, Anthropic запустила выделенную команду мониторинга, работающую в режиме 24/7, и новую программу HackerOne, чтобы стимулировать исследователей безопасности сообщать о джейлбрейках, связанных с киберугрозами.
Кроме того, Anthropic выступает за «строгое регулирование», применяемое ко всем разработчикам передовых моделей на равных условиях. Предлагая государственным партнерам доступ к чувствительным с точки зрения безопасности моделям еще до их официального релиза и выделяя значительные вычислительные мощности для совместных исследований, Anthropic позиционирует себя как лидера движения за прозрачный, согласованный с государством надзор за ИИ.
Основные выводы
- Восстановленный доступ: Fable 5 снова доступна через Claude.ai, Claude Code и Claude Cowork; пользователи планов Pro, Max и Team получают доступ до 7 июля.
- Новые уровни защиты: Anthropic внедрила классификатор безопасности, который блокирует 99% выявленной техники эксплойта, хотя это может увеличить количество ложноположительных срабатываний в рабочих процессах программирования.
- Совместная безопасность: Anthropic сотрудничает с крупнейшими технологическими игроками и правительством США для установления общих отраслевых стандартов мониторинга и реагирования на джейлбрейки передовых моделей.
