OpenAI lance GPT-5.6 Sol pour défier Claude Mythos
OpenAI a officiellement dévoilé GPT-5.6 Sol, une nouvelle génération de modèles sophistiqués conçue pour dominer les secteurs du codage agentique et de la cybersécurité. Bien que cette sortie marque un bond significatif en termes de capacités de raisonnement, elle intervient dans un contexte de controverse croissante concernant les protocoles d'accès restrictifs du gouvernement américain.
Une nouvelle architecture par paliers pour la performance et l'échelle
S'éloignant des lancements de modèles uniques, OpenAI a introduit un système de nommage par couches conçu pour répondre aux divers besoins des entreprises. Cette architecture utilise « Sol », « Terra » et « Luna » comme paliers de performance permanents, permettant aux développeurs de s'adapter en fonction du budget et de la complexité.
Au sommet de la hiérarchie se trouve Sol, le modèle phare. En dessous se trouve Terra, qui égale les performances de GPT-5.5 pour environ la moitié du coût, et Luna, le palier économique. Pour les charges de travail à haute intensité, OpenAI a introduit le mode « max » pour un raisonnement profond et le mode « ultra », qui utilise des sous-agents fonctionnant en parallèle pour s'attaquer à des tâches complexes et multiformes.
Établir de nouveaux standards dans le codage et la biologie
L'objectif principal de GPT-5.6 Sol est de surpasser la classe Claude Mythos d'Anthropic. Dans les tâches de codage agentique, les chiffres confirment les affirmations d'OpenAI : sur le benchmark Terminal-Bench 2.1, Sol Ultra a atteint le score impressionnant de 91,9 %, dépassant Claude Mythos 5 (88,0 %) et Gemini 3.1 Pro Preview de Google (70,7 %).
Le modèle démontre également des percées significatives dans les sciences spécialisées. Sur le benchmark génomique GeneBench v1, Sol a obtenu un score de 30 %, une augmentation substantielle par rapport aux 22 % atteints par GPT-5.5, et ce, tout en consommant moins de tokens. Cette efficacité suggère qu'OpenAI se concentre sur un calcul plus « intelligent » plutôt que simplement sur un calcul plus « massif ».
Cybersécurité : le défenseur contre l'attaquant
Dans le domaine de la cybersécurité, Sol vise à être un outil de défense de premier plan. Sur l'ExploitBench — qui teste la capacité à trouver et à exploiter des vulnérabilités dans le moteur JavaScript Google V8 — Sol égale les performances de Mythos Preview d'Anthropic, mais avec un avantage critique : il utilise environ un tiers des tokens de sortie.
OpenAI positionne Sol comme un défenseur plutôt que comme un attaquant autonome. Lors de tests impliquant Chromium et Firefox, le modèle a réussi à identifier des bugs et des primitives d'exploitation, mais s'est arrêté avant de produire un exploit autonome en chaîne complète. OpenAI soutient que Sol reste en dessous du seuil « Cyber Critical » au sein de son Preparedness Framework interne.
Controverse sur l'accès contrôlé par le gouvernement
Le déploiement de GPT-5.6 Sol ne se fait pas sans heurts. Actuellement, l'accès est limité à une poignée de partenaires sélectionnés via API et Codex, une restriction imposée par le gouvernement américain. Cela fait suite à la décision antérieure du gouvernement de retirer Fable 5 d'Anthropic du marché.
OpenAI a exprimé une vive opposition à ces limitations, qualifiant le processus actuel d'accès gouvernemental d'« insoutenable ». L'entreprise soutient que de telles restrictions empêchent les développeurs, les entreprises et les défenseurs du cyberespace d'accéder aux outils mêmes dont ils ont besoin pour sécuriser l'infrastructure numérique mondiale.
Points clés à retenir
- Stratégie de modèles par paliers : OpenAI introduit une nouvelle hiérarchie — Sol (phare), Terra (milieu de gamme) et Luna (économique) — ainsi qu'un mode « Ultra » pour l'exécution de tâches par sous-agents en parallèle.
- Dominance sur les benchmarks : GPT-5.6 Sol Ultra domine le secteur du codage agentique avec 91,9 % sur Terminal-Bench 2.1, surpassant nettement Claude Mythos et Gemini.
- Approche axée sur l'efficacité : Sol obtient des résultats compétitifs en cybersécurité et en génomique tout en utilisant nettement moins de tokens, ce qui pourrait réduire le coût effectif par tâche pour les développeurs.
