OpenAI, Claude Mythos'a Meydan Okumak İçin GPT-5.6 Sol'u Tanıttı
OpenAI; ajan tabanlı (agentic) kodlama ve siber güvenlik sektörlerine hükmetmek üzere tasarlanmış gelişmiş yeni bir model nesli olan GPT-5.6 Sol'u resmi olarak tanıttı. Bu sürüm, muhakeme yeteneklerinde önemli bir sıçramayı temsil etse de, ABD hükümetinin kısıtlayıcı erişim protokollerine ilişkin büyüyen bir tartışmanın ortasında geldi.
Performans ve Ölçeklendirme İçin Yeni Kademeli Bir Mimari
Tekil model sürümlerinden uzaklaşan OpenAI, çeşitli kurumsal ihtiyaçlar için tasarlanmış katmanlı bir adlandırma şeması sundu. Bu mimari; geliştiricilerin bütçe ve karmaşıklığa göre ölçeklendirme yapmasına olanak tanıyan "Sol", "Terra" ve "Luna" isimlerini kalıcı performans kademeleri olarak kullanıyor.
Hiyerarşinin en tepesinde amiral gemisi model olan Sol yer alıyor. Onun altında, GPT-5.5 performansını yaklaşık yarı maliyetle sunan Terra ve bütçe dostu kademe olan Luna bulunuyor. Yüksek yoğunluklu iş yükleri için OpenAI, derin muhakeme için "max" modunu ve çok yönlü, karmaşık görevleri ele almak için paralel çalışan alt ajanları (sub-agents) kullanan "ultra" modunu tanıttı.
Kodlama ve Biyolojide Yeni Kıyaslama Noktaları Belirliyor
GPT-5.6 Sol'un temel amacı, Anthropic'in Claude Mythos sınıfının önüne geçmektir. Ajan tabanlı kodlama görevlerinde rakamlar OpenAI'ın iddialarını destekliyor: Terminal-Bench 2.1 kıyaslamasında Sol Ultra, %91,9 gibi çarpıcı bir başarı elde ederek Claude Mythos 5 (%88,0) ve Google'ın Gemini 3.1 Pro Preview (%70,7) modellerini geride bıraktı.
Model ayrıca uzmanlık gerektiren bilim dallarında da önemli atılımlar sergiliyor. GeneBench v1 genomik kıyaslamasında Sol, GPT-5.5'in elde ettiği %22'lik orana kıyasla önemli bir artışla %30 puan aldı; üstelik bunu yaparken belirgin şekilde daha az token tüketti. Bu verimlilik, OpenAI'ın sadece "daha büyük" bir hesaplama gücü yerine "daha akıllı" bir hesaplama gücüne odaklandığını gösteriyor.
Siber Güvenlik: Savunmacı vs. Saldırgan
Siber güvenlik alanında Sol, birinci sınıf bir savunma aracı olmayı hedefliyor. Google V8 JavaScript motorundaki güvenlik açıklarını bulma ve bunları kullanma yeteneğini test eden ExploitBench'te Sol, Anthropic'in Mythos Preview performansı ile eşleşiyor ancak kritik bir avantaj sağlıyor: çıktı token'larının yaklaşık üçte birini kullanıyor.
OpenAI, Sol'u otonom bir saldırgandan ziyade bir savunmacı olarak konumlandırıyor. Chromium ve Firefox'u içeren testlerde model, hataları ve istismar temellerini (exploitation primitives) başarıyla tanımladı ancak otonom, tam zincirli bir istismar (full-chain exploit) üretme aşamasına geçmedi. OpenAI, Sol'un kendi dahili Hazırlık Çerçevesi (Preparedness Framework) içindeki "Siber Kritik" eşiğinin altında kaldığını savunuyor.
Hükümet Kontrollü Erişime İlişkin Tartışmalar
GPT-5.6 Sol'un piyasaya sürülmesi sürtüşmesiz ilerlemiyor. Şu anda erişim, ABD hükümeti tarafından zorunlu kılınan bir kısıtlama ile API ve Codex aracılığıyla yalnızca seçilmiş birkaç ortağın kullanımına sunulmuş durumda. Bu durum, hükümetin daha önce Anthropic'in Fable 5 modelini piyasadan kaldırma kararını takip ediyor.
OpenAI, mevcut hükümet erişim sürecini "sürdürülemez" olarak nitelendirerek bu kısıtlamalara güçlü bir şekilde karşı çıktı. Şirket, bu tür kısıtlamaların geliştiricilerin, işletmelerin ve siber savunmacıların küresel dijital altyapıyı güvence altına almak için ihtiyaç duydukları araçlara erişmesini engellediğini savunuyor.
Önemli Çıkarımlar
- Kademeli Model Stratejisi: OpenAI; Sol (amiral gemisi), Terra (orta kademe) ve Luna (bütçe dostu) şeklinde yeni bir hiyerarşinin yanı sıra paralel alt ajan görev yürütme için "Ultra" modunu sunuyor.
- Kıyaslama Hakimiyeti: GPT-5.6 Sol Ultra, Terminal-Bench 2.1'de elde ettiği %91,9 ile ajan tabanlı kodlamada sektöre liderlik ediyor; Claude Mythos ve Gemini'yi önemli ölçüde geride bırakıyor.
- Önce Verimlilik Yaklaşımı: Sol, çok daha az token kullanarak rekabetçi siber güvenlik ve genomik sonuçları elde ediyor; bu da geliştiriciler için görev başına düşen etkin maliyeti potansiyel olarak düşürüyor.
