Anthropic stellt weltweiten Zugriff auf Fable 5 nach US-Regierungsverbot wieder her
Anthropic hat den weltweiten Rollout von Fable 5, seinem leistungsstärksten KI-Modell, nach einer zweiwöchigen, von der US-Regierung angeordneten Aussetzung offiziell wieder aufgenommen. Das Verbot wurde durch eine kritische Sicherheitsfeststellung ausgelöst, die eine Jailbreak-Schwachstelle betraf, durch die das Modell etablierte Sicherheitsbarrieren umgehen konnte.
Die Schwachstelle: Von der defensiven Forschung zum Sicherheitsrisiko
Die plötzliche Einschränkung resultierte aus einem Sicherheitsbericht von Amazon-Forschern, denen es gelang, die Sicherheitsprotokolle von Fable 5 zu umgehen. Die Forscher entdeckten, dass das Modell spezifische Software-Schwachstellen identifizieren und in einem bemerkenswerten Fall sogar funktionalen Code zu deren Ausnutzung generieren konnte.
Während Anthropic dies als einen „Edge Case“ im Rahmen routinemäßiger defensiver Cybersicherheitsarbeit bezeichnete, machte das Missbrauchspotenzial eine gemeinsame Untersuchung zwischen dem Unternehmen und US-Regierungsbehörden erforderlich. Interessanterweise ergab die Untersuchung, dass die Fähigkeit, diese Mängel zu identifizieren, nicht exklusiv für Fable 5 war; auch andere Modelle, darunter Claude Opus 4.8, GPT-5.5 und Kimi K2.7, zeigten ähnliche Fähigkeiten. Selbst kleinere Modelle wie Claude Haiku 4.5 lieferten während der Tests dieselben Exploit-Ergebnisse.
Implementierung neuer Sicherheitsklassifizierer und der „False Positive“-Kompromiss
Um das Problem zu beheben, hat Anthropic einen verbesserten Sicherheitsklassifizierer eingesetzt, der darauf ausgelegt ist, die im Amazon-Bericht identifizierte spezifische Exploit-Technik mit einer Genauigkeit von über 99 % zu blockieren. Wenn eine Benutzeranfrage diese neue Verteidigungsebene auslöst, erhält der Nutzer eine Benachrichtigung, und die Anfrage wird automatisch an das ältere, stärker eingeschränkte Modell Claude Opus 4.8 umgeleitet.
Diese verbesserte Sicherheit geht jedoch mit funktionalen Einbußen einher. Anthropic räumte ein, dass der neue Klassifizierer dazu neigt, harmlose Anfragen bei Standard-Coding- und Debugging-Aufgaben häufiger als problematisch zu markieren. Diese „Sicherheitsmarge“ erzeugt ein Spannungsfeld zwischen Robustheit und Benutzerfreundlichkeit – eine wiederkehrende Herausforderung beim Einsatz von Frontier-Modellen, bei denen die Vermeidung gefährlicher Ausgaben oft zu einer erhöhten Anzahl an „Verweigerungen“ (Refusals) legitimer Entwickleranfragen führt.
Ein Vorstoß für Industriestandards und staatliche Aufsicht
Der Vorfall um Fable 5 hat Anthropics Bestreben nach formalisierten, branchenweiten Sicherheitsstandards beschleunigt. Das Unternehmen arbeitet derzeit im Rahmen des „Glasswing“-Programms mit Amazon, Microsoft und Google zusammen, um einen Rahmen für die Bewertung von Jailbreaks und die Auslösung standardisierter Gegenmaßnahmen zu schaffen. Um dies zu unterstützen, hat Anthropic ein spezielles 24/7-Monitoring-Team sowie ein neues HackerOne-Programm ins Leben gerufen, um Sicherheitsforscher dazu zu motivieren, cyberbezogene Jailbreaks zu melden.
Darüber hinaus setzt sich Anthropic für eine „starke Regulierung“ ein, die gleichermaßen für alle Entwickler von Frontier-Modellen gilt. Indem Anthropic staatlichen Partnern vorab Zugang zu sicherheitskritischen Modellen gewährt und erhebliche Rechenkapazitäten für die gemeinsame Forschung bereitstellt, positioniert sich das Unternehmen als führend in der Bewegung hin zu einer transparenten, staatlich abgestimmten KI-Aufsicht.
Wichtigste Erkenntnisse
- Wiederhergestellter Zugriff: Fable 5 ist wieder über Claude.ai, Claude Code und Claude Cowork verfügbar; Nutzer der Pro-, Max- und Team-Pläne erhalten den Zugang bis zum 7. Juli.
- Neue Verteidigungsebenen: Anthropic hat einen Sicherheitsklassifizierer implementiert, der 99 % der identifizierten Exploit-Technik blockiert, was jedoch zu mehr False Positives in Coding-Workflows führen kann.
- Gemeinsame Sicherheit: Anthropic arbeitet mit großen Tech-Unternehmen und der US-Regierung zusammen, um gemeinsame Industriestandards für die Überwachung und Reaktion auf Jailbreaks bei Frontier-Modellen zu etablieren.
