OpenAI lanza GPT-5.6 Sol para desafiar a Claude Mythos
OpenAI ha presentado oficialmente GPT-5.6 Sol, una nueva y sofisticada generación de modelos diseñada para dominar los sectores de la programación agéntica y la ciberseguridad. Aunque el lanzamiento marca un salto significativo en las capacidades de razonamiento, llega en medio de una creciente controversia relacionada con los restrictivos protocolos de acceso del gobierno de los EE. UU.
Una nueva arquitectura por niveles para el rendimiento y la escala
Alejándose de los lanzamientos de modelos únicos, OpenAI ha introducido un esquema de nomenclatura por capas diseñado para las diversas necesidades empresariales. Esta arquitectura utiliza "Sol", "Terra" y "Luna" como niveles de rendimiento permanentes, lo que permite a los desarrolladores escalar según el presupuesto y la complejidad.
En la cima de la jerarquía se encuentra Sol, el modelo insignia. Debajo se sitúa Terra, que iguala el rendimiento de GPT-5.5 a aproximadamente la mitad del coste, y Luna, el nivel económico. Para cargas de trabajo de alta intensidad, OpenAI ha introducido el modo "max" para un razonamiento profundo y el modo "ultra", que utiliza subagentes que se ejecutan en paralelo para abordar tareas complejas y polifacéticas.
Estableciendo nuevos referentes en programación y biología
El objetivo principal de GPT-5.6 Sol es superar a la clase Claude Mythos de Anthropic. En tareas de programación agéntica, las cifras respaldan las afirmaciones de OpenAI: en el benchmark Terminal-Bench 2.1, Sol Ultra alcanzó un asombroso 91,9%, superando a Claude Mythos 5 (88,0%) y al Gemini 3.1 Pro Preview de Google (70,7%).
El modelo también demuestra avances significativos en ciencias especializadas. En el benchmark genómico GeneBench v1, Sol obtuvo un 30%, un aumento sustancial respecto al 22% logrado por GPT-5.5, y lo hizo notablemente consumiendo menos tokens. Esta eficiencia sugiere que OpenAI se está centrando en un cómputo más "inteligente" en lugar de simplemente un cómputo más "grande".
Ciberseguridad: El defensor frente al atacante
En el ámbito de la ciberseguridad, Sol aspira a ser una herramienta defensiva de primer nivel. En el ExploitBench —que pone a prueba la capacidad de encontrar y explotar vulnerabilidades en el motor JavaScript Google V8—, Sol iguala el rendimiento de Mythos Preview de Anthropic, pero con una ventaja crítica: utiliza aproximadamente un tercio de los tokens de salida.
OpenAI está posicionando a Sol como un defensor en lugar de un atacante autónomo. En pruebas que involucran a Chromium y Firefox, el modelo identificó con éxito errores y primitivas de explotación, pero no llegó a producir un exploit autónomo de cadena completa. OpenAI sostiene que Sol se mantiene por debajo del umbral "Cyber Critical" dentro de su Preparedness Framework interno.
Controversia sobre el acceso controlado por el gobierno
El despliegue de GPT-5.6 Sol no está exento de fricciones. Actualmente, el acceso está limitado a un pequeño grupo de socios seleccionados a través de API y Codex, una restricción impuesta por el gobierno de los EE. UU. Esto sigue a la decisión previa del gobierno de retirar Fable 5 de Anthropic del mercado.
OpenAI ha expresado una fuerte oposición a estas limitaciones, calificando el proceso actual de acceso gubernamental como "insostenible". La empresa sostiene que tales restricciones impiden que los desarrolladores, las empresas y los defensores cibernéticos accedan a las herramientas mismas que necesitan para asegurar la infraestructura digital global.
Conclusiones clave
- Estrategia de modelos por niveles: OpenAI introduce una nueva jerarquía —Sol (insignia), Terra (nivel medio) y Luna (económico)— junto con el modo "Ultra" para la ejecución de tareas mediante subagentes en paralelo.
- Dominio en benchmarks: GPT-5.6 Sol Ultra lidera la industria en programación agéntica con un 91,9% en Terminal-Bench 2.1, superando significativamente a Claude Mythos y Gemini.
- Enfoque centrado en la eficiencia: Sol logra resultados competitivos en ciberseguridad y genómica utilizando significativamente menos tokens, lo que podría reducir el coste efectivo por tarea para los desarrolladores.
