Anthropic przywraca globalny dostęp do Fable 5 po zakazie rządu USA
Anthropic oficjalnie wznowiło światowe wdrażanie Fable 5, swojego najpotężniejszego modelu AI, po dwutygodniowej zawieszeniu nakazanym przez rząd USA. Zakaz został wywołany krytycznym odkryciem dotyczącym bezpieczeństwa, związanym z podatnością na jailbreak, która pozwalała modelowi na ominięcie ustalonych zabezpieczeń.
Podatność: Od badań defensywnych do ryzyka bezpieczeństwa
Nagłe ograniczenie wynikało z raportu dotyczącego bezpieczeństwa przygotowanego przez badaczy z Amazon, którzy skutecznie ominęli protokoły bezpieczeństwa Fable 5. Badacze odkryli, że model potrafi identyfikować konkretne podatności oprogramowania i w jednym znaczącym przypadku wygenerować funkcjonalny kod służący do ich wykorzystania.
Choć Anthropic określiło to jako „przypadek brzegowy” (edge case) związany z rutynową pracą w zakresie defensywnego cyberbezpieczeństwa, potencjał nadużyć wymusił przeprowadzenie wspólnego dochodzenia przez firmę i agencje rządowe USA. Co ciekawe, dochodzenie wykazało, że zdolność do identyfikowania tych luk nie była unikalna dla Fable 5; inne modele, w tym Claude Opus 4.8, GPT-5.5 oraz Kimi K2.7, wykazywały podobne możliwości. Nawet mniejsze modele, takie jak Claude Haiku 4.5, podczas testów dawały te same wyniki eksploatacji.
Wdrażanie nowych klasyfikatorów bezpieczeństwa i kompromis związany z „fałszywymi alarmami”
Aby rozwiązać ten problem, Anthropic wdrożyło ulepszony klasyfikator bezpieczeństwa, zaprojektowany tak, aby blokować konkretną technikę eksploatacji zidentyfikowaną w raporcie Amazon z dokładnością przekraczającą 99%. Gdy zapytanie użytkownika aktywuje tę nową warstwę obrony, otrzymuje on powiadomienie, a zapytanie jest automatycznie przekierowywane do starszego, bardziej ograniczonego modelu Claude Opus 4.8.
Jednak ta zwiększona ochrona wiąże się z kosztami funkcjonalnymi. Anthropic przyznało, że nowy klasyfikator ma tendencję do częstszego oznaczania nieszkodliwych zapytań podczas standardowych zadań programistycznych i debugowania. Ten „margines bezpieczeństwa” tworzy napięcie między solidnością a użytecznością — powracające wyzwanie przy wdrażaniu modeli typu frontier, gdzie zapobieganie niebezpiecznym odpowiedziom często prowadzi do zwiększonej liczby „odmów” (refusals) w przypadku uzasadnionych zapytań programistów.
Dążenie do standardów branżowych i nadzoru rządowego
Incydent z Fable 5 przyspieszył działania Anthropic na rzecz sformalizowania standardów bezpieczeństwa w całej branży. Firma współpracuje obecnie z Amazon, Microsoft i Google w ramach programu „Glasswing”, aby zbudować ramy oceny jailbreaków i uruchamiania ustandaryzowanych środków zaradczych. Aby to wzmocnić, Anthropic powołało dedykowany zespół monitorujący 24/7 oraz nowy program HackerOne, mający na celu zachęcenie badaczy bezpieczeństwa do zgłaszania jailbreaków związanych z cyberbezpieczeństwem.
Co więcej, Anthropic opowiada się za „silnymi regulacjami” stosowanymi jednakowo wobec wszystkich twórców modeli typu frontier. Oferując partnerom rządowym dostęp do modeli wrażliwych pod kątem bezpieczeństwa jeszcze przed ich premierą oraz angażując znaczną moc obliczeniową w wspólne badania, Anthropic pozycjonuje się jako lider ruchu na rzecz przejrzystego, zgodnego z rządem nadzoru nad AI.
Kluczowe wnioski
- Przywrócony dostęp: Fable 5 jest ponownie dostępny poprzez Claude.ai, Claude Code oraz Claude Cowork, przy czym plany Pro, Max i Team otrzymają dostęp do 7 lipca.
- Nowe warstwy obrony: Anthropic wdrożyło klasyfikator bezpieczeństwa, który blokuje 99% zidentyfikowanej techniki eksploatacji, choć może on zwiększać liczbę fałszywych alarmów (false positives) w procesach programistycznych.
- Współpraca w zakresie bezpieczeństwa: Anthropic współpracuje z głównymi graczami technologicznymi oraz rządem USA w celu ustanowienia wspólnych standardów branżowych dotyczących monitorowania i reagowania na jailbreaki modeli typu frontier.
