Anthropic ripristina l'accesso globale a Fable 5 dopo il divieto del governo degli Stati Uniti
Anthropic ha ufficialmente ripreso il rilascio globale di Fable 5, il suo modello di IA più potente, dopo una sospensione di due settimane imposta dal governo degli Stati Uniti. Il divieto è stato causato da un rilevamento critico di sicurezza relativo a una vulnerabilità di jailbreak che permetteva al modello di aggirare i protocolli di sicurezza stabiliti.
La vulnerabilità: dalla ricerca difensiva al rischio per la sicurezza
La repentina restrizione è derivata da un rapporto sulla sicurezza redatto da ricercatori di Amazon, i quali sono riusciti a bypassare i protocolli di sicurezza di Fable 5. I ricercatori hanno scoperto che il modello era in grado di identificare specifiche vulnerabilità software e, in un caso degno di nota, di generare codice funzionale per sfruttarle.
Sebbene Anthropic abbia descritto l'accaduto come un "caso limite" relativo a normali attività di cybersecurity difensiva, il potenziale di uso improprio ha reso necessaria un'indagine congiunta tra l'azienda e le agenzie governative degli Stati Uniti. Curiosamente, l'indagine ha rivelato che la capacità di identificare tali falle non era esclusiva di Fable 5; altri modelli, tra cui Claude Opus 4.8, GPT-5.5 e Kimi K2.7, hanno mostrato capacità simili. Persino modelli più piccoli come Claude Haiku 4.5 hanno prodotto gli stessi risultati di exploit durante i test.
Implementazione di nuovi classificatori di sicurezza e il compromesso dei "falsi positivi"
Per risolvere il problema, Anthropic ha implementato un classificatore di sicurezza migliorato, progettato per bloccare la specifica tecnica di sfruttamento identificata nel rapporto di Amazon con un'accuratezza superiore al 99%. Quando la richiesta di un utente attiva questo nuovo livello di difesa, l'utente riceve una notifica e la query viene automaticamente reindirizzata al modello precedente e più limitato, Claude Opus 4.8.
Tuttavia, questo potenziamento della sicurezza comporta un costo funzionale. Anthropic ha ammesso che il nuovo classificatore tende a segnalare più frequentemente richieste innocue durante le normali attività di programmazione e debugging. Questo "margine di sicurezza" crea una tensione tra robustezza e usabilità: una sfida ricorrente nel deployment dei modelli di frontiera, dove la prevenzione di output pericolosi porta spesso a un aumento dei "rifiuti" di legittime query degli sviluppatori.
Una spinta verso standard di settore e supervisione governativa
L'incidente di Fable 5 ha accelerato la spinta di Anthropic verso standard di sicurezza formalizzati a livello di settore. L'azienda sta collaborando con Amazon, Microsoft e Google attraverso il programma "Glasswing" per costruire un framework per la valutazione dei jailbreak e l'attivazione di contromisure standardizzate. Per rafforzare questo impegno, Anthropic ha lanciato un team di monitoraggio dedicato attivo 24 ore su 24, 7 giorni su 7, e un nuovo programma HackerOne per incentivare i ricercatori di sicurezza a segnalare jailbreak legati alla cybersecurity.
Inoltre, Anthropic sostiene una "regolamentazione forte" applicata equamente a tutti gli sviluppatori di modelli di frontiera. Offrendo ai partner governativi l'accesso in anteprima a modelli sensibili dal punto di vista della sicurezza e impegnando una potenza di calcolo significativa per la ricerca congiunta, Anthropic si sta posizionando come leader nel movimento verso una supervisione dell'IA trasparente e allineata ai governi.
Punti chiave
- Accesso ripristinato: Fable 5 è di nuovo disponibile tramite Claude.ai, Claude Code e Claude Cowork; i piani Pro, Max e Team avranno accesso fino al 7 luglio.
- Nuovi livelli di difesa: Anthropic ha implementato un classificatore di sicurezza che blocca il 99% della tecnica di exploit identificata, sebbene possa aumentare i falsi positivi nei flussi di lavoro di programmazione.
- Sicurezza collaborativa: Anthropic sta collaborando con i principali attori tecnologici e il governo degli Stati Uniti per stabilire standard di settore condivisi per il monitoraggio e la risposta ai jailbreak dei modelli di frontiera.
