Anthropic rétablit l'accès mondial à Fable 5 après l'interdiction du gouvernement américain

Anthropic a officiellement repris le déploiement mondial de Fable 5, son modèle d'IA le plus puissant, suite à une suspension de deux semaines imposée par le gouvernement américain. L'interdiction a été déclenchée par une découverte de sécurité critique impliquant une vulnérabilité de type jailbreak qui permettait au modèle de contourner les garde-fous de sécurité établis.

La vulnérabilité : de la recherche défensive au risque de sécurité

Cette restriction soudaine découle d'un rapport de sécurité rédigé par des chercheurs d'Amazon qui ont réussi à contourner les protocoles de sécurité de Fable 5. Les chercheurs ont découvert que le modèle pouvait identifier des vulnérabilités logicielles spécifiques et, dans un cas notable, générer du code fonctionnel pour les exploiter.

Bien qu'Anthropic ait qualifié cela de « cas limite » (edge case) lié à des travaux de cybersécurité défensive de routine, le potentiel de détournement a nécessité une enquête conjointe entre l'entreprise et les agences gouvernementales américaines. Fait intéressant, l'enquête a révélé que la capacité d'identifier ces failles n'était pas propre à Fable 5 ; d'autres modèles, notamment Claude Opus 4.8, GPT-5.5 et Kimi K2.7, présentaient des capacités similaires. Même des modèles plus petits comme Claude Haiku 4.5 ont produit les mêmes résultats d'exploitation lors des tests.

Mise en œuvre de nouveaux classificateurs de sécurité et compromis sur les « faux positifs »

Pour remédier au problème, Anthropic a déployé un classificateur de sécurité amélioré, conçu pour bloquer la technique d'exploitation spécifique identifiée dans le rapport d'Amazon avec une précision de plus de 99 %. Lorsqu'une requête d'utilisateur déclenche cette nouvelle couche de défense, une notification lui est envoyée et la requête est automatiquement redirigée vers le modèle plus ancien et plus restreint, Claude Opus 4.8.

Cependant, ce renforcement de la sécurité s'accompagne d'un coût fonctionnel. Anthropic a admis que le nouveau classificateur a tendance à signaler plus fréquemment des requêtes inoffensives lors de tâches standard de codage et de débogage. Cette « marge de sécurité » crée une tension entre robustesse et utilisabilité — un défi récurrent dans le déploiement de modèles de pointe (frontier models), où la prévention de contenus dangereux entraîne souvent une augmentation des « refus » de requêtes légitimes de la part des développeurs.

Une poussée vers des normes industrielles et une surveillance gouvernementale

L'incident Fable 5 a accéléré la volonté d'Anthropic d'instaurer des normes de sécurité formalisées à l'échelle de l'industrie. L'entreprise collabore actuellement avec Amazon, Microsoft et Google via le programme « Glasswing » afin de construire un cadre pour évaluer les jailbreaks et déclencher des contre-mesures standardisées. Pour renforcer cette initiative, Anthropic a lancé une équipe de surveillance dédiée 24h/24 et 7j/7 ainsi qu'un nouveau programme HackerOne pour inciter les chercheurs en sécurité à signaler les jailbreaks liés à la cybersécurité.

En outre, Anthropic préconise une « réglementation stricte » appliquée de manière égale à tous les développeurs de modèles de pointe. En offrant aux partenaires gouvernementaux un accès en pré-version à des modèles sensibles sur le plan de la sécurité et en engageant des ressources de calcul importantes pour la recherche conjointe, Anthropic se positionne comme un leader du mouvement vers une surveillance de l'IA transparente et alignée sur les gouvernements.

Points clés

  • Accès rétabli : Fable 5 est à nouveau disponible via Claude.ai, Claude Code et Claude Cowork ; les forfaits Pro, Max et Team bénéficieront de cet accès jusqu'au 7 juillet.
  • Nouvelles couches de défense : Anthropic a mis en œuvre un classificateur de sécurité qui bloque 99 % de la technique d'exploitation identifiée, bien que cela puisse augmenter les faux positifs dans les flux de travail de codage.
  • Sécurité collaborative : Anthropic s'associe aux principaux acteurs technologiques et au gouvernement américain pour établir des normes industrielles partagées afin de surveiller et de répondre aux jailbreaks des modèles de pointe.