Anthropic resta el acceso global a Fable 5 tras la prohibición del gobierno de EE. UU.

Anthropic ha reanudado oficialmente el despliegue mundial de Fable 5, su modelo de IA más potente, tras una suspensión de dos semanas ordenada por el gobierno de EE. UU. La prohibición se produjo a raíz de un hallazgo de seguridad crítico relacionado con una vulnerabilidad de jailbreak que permitía al modelo eludir las salvaguardas de seguridad establecidas.

La vulnerabilidad: de la investigación defensiva al riesgo de seguridad

La repentina restricción se derivó de un informe de seguridad de investigadores de Amazon que lograron eludir los protocolos de seguridad de Fable 5. Los investigadores descubrieron que el modelo podía identificar vulnerabilidades de software específicas y, en un caso notable, generar código funcional para explotarlas.

Aunque Anthropic calificó esto como un "caso extremo" (edge case) relacionado con tareas rutinarias de ciberseguridad defensiva, el potencial de uso indebido requirió una investigación conjunta entre la empresa y las agencias gubernamentales de EE. UU. Curiosamente, la investigación reveló que la capacidad de identificar estos fallos no era exclusiva de Fable 5; otros modelos, incluidos Claude Opus 4.8, GPT-5.5 y Kimi K2.7, mostraron capacidades similares. Incluso modelos más pequeños como Claude Haiku 4.5 produjeron los mismos resultados de explotación durante las pruebas.

Implementación de nuevos clasificadores de seguridad y el dilema de los "falsos positivos"

Para solucionar el problema, Anthropic ha implementado un clasificador de seguridad mejorado, diseñado para bloquear la técnica de explotación específica identificada en el informe de Amazon con una precisión superior al 99 %. Cuando la solicitud de un usuario activa esta nueva capa de defensa, recibe una notificación y la consulta se redirige automáticamente al modelo Claude Opus 4.8, que es más antiguo y restringido.

Sin embargo, esta seguridad mejorada conlleva un coste funcional. Anthropic admitió que el nuevo clasificador tiende a marcar solicitudes inofensivas con mayor frecuencia durante las tareas estándar de programación y depuración. Este "margen de seguridad" crea una tensión entre la robustez y la usabilidad, un desafío recurrente en el despliegue de modelos de frontera, donde la prevención de resultados peligrosos a menudo conduce a un aumento de las "denegaciones" de consultas legítimas de desarrolladores.

Un impulso hacia los estándares de la industria y la supervisión gubernamental

El incidente de Fable 5 ha acelerado el impulso de Anthropic hacia estándares de seguridad formalizados para toda la industria. Actualmente, la empresa colabora con Amazon, Microsoft y Google a través del programa "Glasswing" para construir un marco de trabajo para calificar los jailbreaks y activar contramedidas estandarizadas. Para reforzar esto, Anthropic ha lanzado un equipo de monitoreo dedicado las 24 horas, los 7 días de la semana, y un nuevo programa HackerOne para incentivar a los investigadores de seguridad a reportar jailbreaks relacionados con la ciberseguridad.

Además, Anthropic aboga por una "regulación estricta" aplicada por igual a todos los desarrolladores de modelos de frontera. Al ofrecer a los socios gubernamentales acceso previo al lanzamiento de modelos sensibles a la seguridad y comprometer una capacidad de cómputo significativa para la investigación conjunta, Anthropic se posiciona como líder en el movimiento hacia una supervisión de la IA transparente y alineada con el gobierno.

Conclusiones clave

  • Acceso restaurado: Fable 5 está disponible nuevamente a través de Claude.ai, Claude Code y Claude Cowork; los planes Pro, Max y Team recibirán acceso hasta el 7 de julio.
  • Nuevas capas de defensa: Anthropic implementó un clasificador de seguridad que bloquea el 99 % de la técnica de explotación identificada, aunque puede aumentar los falsos positivos en los flujos de trabajo de programación.
  • Seguridad colaborativa: Anthropic se está asociando con los principales actores tecnológicos y el gobierno de EE. UU. para establecer estándares industriales compartidos para el monitoreo y la respuesta ante jailbreaks en modelos de frontera.