Anthropic lanza Claude Sonnet 5: La nueva frontera de la IA agéntica
Anthropic ha lanzado oficialmente Claude Sonnet 5, un modelo de gran potencia diseñado para cerrar la brecha de rendimiento entre las series de IA de gama media y las de gama alta. Al priorizar las capacidades agénticas —la capacidad de usar herramientas, navegar y ejecutar planes complejos—, este lanzamiento señala un cambio hacia flujos de trabajo de IA autónomos.
Cerrando la brecha con la serie Opus
El aspecto más sorprendente de Sonnet 5 es lo mucho que se aproxima al rendimiento del mucho más grande y costoso Opus 4.8. En pruebas de referencia (benchmarks) revolucionarias, Sonnet 5 ha demostrado que los modelos de "tamaño medio" ahora pueden abordar tareas que antes estaban reservadas para la inteligencia de clase frontera.
En el benchmark de razonamiento multidisciplinario, Humanity's Last Exam, Sonnet 5 alcanzó una puntuación del 57,4 % utilizando herramientas, igualando casi la puntuación de Opus 4.8 del 57,9 %. Lo más impresionante es que, en el benchmark de tareas de conocimiento del mundo real GDPval-AA v2, Sonnet 5 superó de hecho a Opus 4.8, con 1.618 puntos frente a los 1.615 del modelo insignia. Esto sugiere que, para flujos de trabajo específicos con gran carga de conocimientos, la eficiencia de Sonnet 5 puede superar la escala bruta de la serie Opus.
Un salto masivo en el rendimiento agéntico
Anthropic ha diseñado específicamente a Sonnet 5 para que sea su modelo más "agéntico" hasta la fecha. Esto significa que el modelo está optimizado para interactuar con entornos como navegadores web y terminales para completar objetivos de múltiples pasos. Los datos muestran un salto significativo respecto a su predecesor, Sonnet 4.6:
- SWE-bench Pro (Agentic Coding): Sonnet 5 alcanzó el 63,2 %, frente al 58,1 % de Sonnet 4.6 (por detrás de Opus 4.8 con un 69,2 %).
- Terminal-Bench 2.1: Un salto masivo al 80,4 %, en comparación con el 67,0 % de Sonnet 4.6.
- OSWorld-Verified (Computer Use): El modelo obtuvo una puntuación de 81,2 %, superando el 78,5 % registrado por la versión anterior.
Navegando las restricciones de ciberseguridad y seguridad
El lanzamiento se produce en un momento delicado para Anthropic, tras las restricciones del gobierno de EE. UU. a sus modelos Mythos 5 y Fable 5 debido a preocupaciones de ciberseguridad. Para evitar obstáculos similares, Anthropic se ha asegurado de que Sonnet 5 no fuera entrenado en tareas especializadas de ciberseguridad.
Aunque Sonnet 5 muestra una tasa de control parcial ligeramente superior en las evaluaciones de exploits (13,2 %) que Sonnet 4.6, sigue siendo significativamente menos capaz que Opus 4.8 o Mythos 5 en la escritura de exploits de software. Para mitigar el riesgo, Anthropic ha implementado salvaguardas cibernéticas en tiempo real de forma predeterminada, junto con defensas mejoradas contra la inyección de prompts y una reducción del comportamiento "sicofante" (la tendencia a simplemente dar la razón a los errores del usuario).
Disponibilidad y la "paradoja de los tokens"
Claude Sonnet 5 ya está disponible a través de la plataforma Claude y la API (como claude-sonnet-5), con una ventana de contexto de un millón de tokens y una fecha de corte de entrenamiento de enero de 2026.
Aunque Anthropic ofrece precios de lanzamiento —2 $ por millón de tokens de entrada y 10 $ por millón de tokens de salida hasta el 31 de agosto de 2026—, los desarrolladores deben tener cuidado con la "paradoja de los tokens". Debido a que el modelo es más agéntico y participa en un razonamiento más iterativo, puede consumir significativamente más tokens para completar una sola tarea en comparación con las versiones anteriores, lo que podría contrarrestar el menor coste por token.
Conclusiones clave
- Paridad de rendimiento: Sonnet 5 iguala o incluso supera al modelo insignia Opus 4.8 en benchmarks específicos de razonamiento y trabajo de conocimiento.
- Enfoque agéntico: El modelo muestra mejoras masivas en programación (SWE-bench) e interacción con la terminal, lo que lo hace ideal para el uso autónomo de herramientas.
- Seguridad estratégica: Anthropic ha priorizado las salvaguardas cibernéticas integradas para distinguir este modelo de otros modelos frontera más controvertidos y de alto riesgo.
