OpenAI bringt GPT-5.6 Sol heraus, um Claude Mythos herauszufordern
OpenAI hat offiziell GPT-5.6 Sol vorgestellt, eine hochentwickelte neue Modellgeneration, die darauf ausgelegt ist, die Bereiche agentisches Coding und Cybersicherheit zu dominieren. Während die Veröffentlichung einen bedeutenden Sprung in den Reasoning-Fähigkeiten darstellt, erfolgt sie inmitten einer aufkommenden Kontroverse über restriktive Zugriffsprotokolle der US-Regierung.
Eine neue gestufte Architektur für Leistung und Skalierbarkeit
Abkehr von einzelnen Modellveröffentlichungen: OpenAI hat ein geschichtetes Benennungsschema eingeführt, das auf unterschiedliche Unternehmensbedürfnisse zugeschnitten ist. Diese Architektur nutzt „Sol“, „Terra“ und „Luna“ als permanente Leistungsebenen, sodass Entwickler die Skalierung entsprechend ihrem Budget und der Komplexität vornehmen können.
An der Spitze der Hierarchie steht Sol, das Flaggschiff-Modell. Darunter befindet sich Terra, das die Leistung von GPT-5.5 zu etwa der Hälfte der Kosten erreicht, und Luna, die budgetfreundliche Stufe. Für hochintensive Arbeitslasten hat OpenAI den „max“-Modus für tiefes Reasoning sowie den „ultra“-Modus eingeführt, der parallele Sub-Agenten nutzt, um vielschichtige, komplexe Aufgaben zu bewältigen.
Neue Benchmarks in Coding und Biologie setzen
Das primäre Ziel von GPT-5.6 Sol ist es, die Claude-Mythos-Klasse von Anthropic zu übertreffen. Bei agentischen Coding-Aufgaben stützen die Zahlen die Behauptungen von OpenAI: Im Terminal-Bench 2.1 Benchmark erreichte Sol Ultra beeindruckende 91,9 % und übertraf damit Claude Mythos 5 (88,0 %) und Googles Gemini 3.1 Pro Preview (70,7 %).
Das Modell zeigt zudem signifikante Durchbrüche in spezialisierten Wissenschaften. Im GeneBench v1 Genomics-Benchmark erzielte Sol 30 %, eine erhebliche Steigerung gegenüber den 22 %, die GPT-5.5 erreichte – und das bei einem geringeren Token-Verbrauch. Diese Effizienz deutet darauf hin, dass OpenAI sich auf „smartes“ statt nur auf „größeres“ Computing konzentriert.
Cybersicherheit: Der Verteidiger vs. der Angreifer
Im Bereich der Cybersicherheit zielt Sol darauf ab, ein erstklassiges Verteidigungswerkzeug zu sein. Im ExploitBench – der die Fähigkeit testet, Schwachstellen in der Google V8 JavaScript-Engine zu finden und auszunutzen – erreicht Sol die Leistung von Anthropics Mythos Preview, jedoch mit einem entscheidenden Vorteil: Es verbraucht etwa ein Drittel der Output-Token.
OpenAI positioniert Sol als Verteidiger und nicht als autonomen Angreifer. In Tests mit Chromium und Firefox identifizierte das Modell erfolgreich Bugs und Exploitation-Primitives, blieb jedoch bei der Erstellung eines autonomen Full-Chain-Exploits zurück. OpenAI betont, dass Sol innerhalb seines internen Preparedness Framework unter dem „Cyber Critical“-Schwellenwert bleibt.
Kontroverse über die staatlich kontrollierte Zugriffsbeschränkung
Der Rollout von GPT-5.6 Sol verläuft nicht ohne Reibungen. Derzeit ist der Zugriff über API und Codex auf eine Handvoll ausgewählter Partner beschränkt – eine von der US-Regierung angeordnete Einschränkung. Dies folgt auf die vorangegangene Entscheidung der Regierung, Anthropics Fable 5 vom Markt zu nehmen.
OpenAI hat starken Widerstand gegen diese Einschränkungen geäußert und bezeichnet den aktuellen staatlichen Zugriffsprozess als „nicht tragbar“. Das Unternehmen argumentiert, dass solche Beschränkungen Entwickler, Unternehmen und Cyber-Verteidiger daran hindern, genau die Werkzeuge zu nutzen, die sie zur Sicherung der globalen digitalen Infrastruktur benötigen.
Die wichtigsten Erkenntnisse
- Gestufte Modellstrategie: OpenAI führt eine neue Hierarchie ein – Sol (Flaggschiff), Terra (Mittelklasse) und Luna (Budget) – zusammen mit dem „Ultra“-Modus für die parallele Ausführung von Aufgaben durch Sub-Agenten.
- Benchmark-Dominanz: GPT-5.6 Sol Ultra führt die Branche im Bereich agentisches Coding mit 91,9 % im Terminal-Bench 2.1 an und übertrifft Claude Mythos und Gemini deutlich.
- Effizienz-orientierter Ansatz: Sol erzielt wettbewerbsfähige Ergebnisse in der Cybersicherheit und Genomik bei gleichzeitig deutlich geringerem Token-Verbrauch, was potenziell die effektiven Kosten pro Aufgabe für Entwickler senkt.
