OpenAI wprowadza GPT-5.6 Sol, by rzucić wyzwanie Claude Mythos
OpenAI oficjalnie zaprezentowało GPT-5.6 Sol – nową, zaawansowaną generację modeli zaprojektowaną z myślą o dominacji w sektorach agentowego programowania (agentic coding) oraz cyberbezpieczeństwa. Choć premiera ta stanowi znaczący skok w możliwościach rozumowania, odbywa się ona w atmosferze narastających kontrowersji dotyczących restrykcyjnych protokołów dostępu narzuconych przez rząd USA.
Nowa architektura warstwowa dla wydajności i skali
Odchodząc od modelu wydawania pojedynczych modeli, OpenAI wprowadziło wielowarstwowy schemat nazewnictwa, dostosowany do różnorodnych potrzeb przedsiębiorstw. Architektura ta wykorzystuje nazwy „Sol”, „Terra” i „Luna” jako stałe poziomy wydajności, co pozwala programistom na skalowanie rozwiązań w zależności od budżetu i stopnia złożoności.
Na szczycie hierarchii znajduje się Sol, model flagowy. Poniżej plasuje się Terra, która oferuje wydajność zbliżoną do GPT-5.5 przy około połowie kosztów, oraz Luna, czyli wariant budżetowy. Dla zadań o wysokiej intensywności OpenAI wprowadziło tryb „max” do głębokiego rozumowania oraz tryb „ultra”, który wykorzystuje podagentów działających równolegle do rozwiązywania wieloaspektowych, złożonych zadań.
Nowe standardy w programowaniu i biologii
Głównym celem GPT-5.6 Sol jest wyprzedzenie klasy Claude Mythos od Anthropic. W zadaniach z zakresu agentowego programowania liczby potwierdzają twierdzenia OpenAI: w benchmarku Terminal-Bench 2.1 model Sol Ultra osiągnął oszałamiające 91,9%, przewyższając Claude Mythos 5 (88,0%) oraz Google Gemini 3.1 Pro Preview (70,7%).
Model wykazuje również znaczące przełomy w naukach specjalistycznych. W benchmarku genomiki GeneBench v1, Sol uzyskał wynik 30%, co stanowi istotny wzrost w porównaniu do 22% osiągniętych przez GPT-5.5, i to przy zauważalnie mniejszym zużyciu tokenów. Ta efektywność sugeruje, że OpenAI koncentruje się na „inteligentniejszej” mocy obliczeniowej, a nie tylko na jej „większej” skali.
Cyberbezpieczeństwo: Obrońca kontra Atakujący
W dziedzinie cyberbezpieczeństwa Sol ma stać się czołowym narzędziem defensywnym. W teście ExploitBench — sprawdzającym zdolność do wykrywania i wykorzystywania podatności w silniku JavaScript Google V8 — Sol dorównuje wydajnością modelowi Mythos Preview od Anthropic, ale posiada kluczową przewagę: zużywa około jednej trzeciej tokenów wyjściowych.
OpenAI pozycjonuje Sol jako obrońcę, a nie autonomicznego atakującego. W testach obejmujących przeglądarki Chromium i Firefox model pomyślnie identyfikował błędy i prymitywy eksploatacji, ale nie posunął się do stworzenia autonomicznego, pełnego łańcucha eksploatacji (full-chain exploit). OpenAI utrzymuje, że Sol pozostaje poniżej progu „Cyber Critical” w ramach wewnętrznego systemu Preparedness Framework.
Kontrowersje wokół dostępu kontrolowanego przez rząd
Wdrażanie GPT-5.6 Sol nie odbywa się bez tarć. Obecnie dostęp jest ograniczony do garstki wybranych partnerów za pośrednictwem API i Codex, co jest restrykcją narzuconą przez rząd USA. Następuje to po wcześniejszej decyzji rządu o wycofaniu modelu Fable 5 od Anthropic z rynku.
OpenAI wyraziło stanowczy sprzeciw wobec tych ograniczeń, określając obecny proces dostępu rządowego jako „nie do utrzymania”. Firma argumentuje, że takie restrykcje uniemożliwiają programistom, przedsiębiorstwom i obrońcom cyberprzestrzeni dostęp do narzędzi, których potrzebują, aby zabezpieczyć globalną infrastrukturę cyfrową.
Kluczowe wnioski
- Strategia warstwowych modeli: OpenAI wprowadza nową hierarchię — Sol (flagowy), Terra (średni poziom) i Luna (budżetowy) — wraz z trybem „Ultra” do równoległego wykonywania zadań przez podagentów.
- Dominacja w benchmarkach: GPT-5.6 Sol Ultra przoduje w branży w zakresie agentowego programowania z wynikiem 91,9% w Terminal-Bench 2.1, znacząco wyprzedzając Claude Mythos i Gemini.
- Podejście skoncentrowane na efektywności: Sol osiąga konkurencyjne wyniki w cyberbezpieczeństwie i genomice, zużywając przy tym znacznie mniej tokenów, co potencjalnie obniża efektywny koszt pojedynczego zadania dla programistów.
