Claude Mythos को चुनौती देने के लिए OpenAI ने GPT-5.6 Sol लॉन्च किया

OpenAI ने आधिकारिक तौर पर GPT-5.6 Sol का अनावरण किया है, जो एजेंटिक कोडिंग (agentic coding) और साइबर सुरक्षा क्षेत्रों में दबदबा बनाने के लिए डिज़ाइन की गई एक परिष्कृत नई मॉडल जनरेशन है। हालाँकि यह रिलीज़ तर्क करने की क्षमताओं (reasoning capabilities) में एक महत्वपूर्ण छलांग है, लेकिन यह अमेरिकी सरकार के प्रतिबंधात्मक एक्सेस प्रोटोकॉल के संबंध में बढ़ते विवाद के बीच आई है।

प्रदर्शन और स्केल के लिए एक नया टियर आधारित आर्किटेक्चर

एकल मॉडल रिलीज़ से हटकर, OpenAI ने विविध एंटरप्राइज़ आवश्यकताओं के लिए डिज़ाइन की गई एक लेयर्ड नेमिंग स्कीम पेश की है। यह आर्किटेक्चर "Sol," "Terra," और "Luna" को स्थायी प्रदर्शन टियर के रूप में उपयोग करता है, जिससे डेवलपर्स को बजट और जटिलता के अनुसार स्केल करने की सुविधा मिलती है।

पदानुक्रम (hierarchy) में सबसे ऊपर Sol है, जो फ्लैगशिप मॉडल है। इसके नीचे Terra है, जो लगभग आधी लागत पर GPT-5.5 के प्रदर्शन के बराबर है, और Luna है, जो बजट-अनुकूल टियर है। उच्च-तीव्रता वाले वर्कलोड के लिए, OpenAI ने गहन तर्क (deep reasoning) के लिए "max" मोड और "ultra" मोड पेश किया है, जो बहुआयामी, जटिल कार्यों से निपटने के लिए समानांतर (parallel) रूप से चलने वाले सब-एजेंट्स का उपयोग करता है।

कोडिंग और जीव विज्ञान में नए बेंचमार्क स्थापित करना

GPT-5.6 Sol का प्राथमिक उद्देश्य Anthropic के Claude Mythos क्लास से आगे निकलना है। एजेंटिक कोडिंग कार्यों में, आंकड़े OpenAI के दावों का समर्थन करते हैं: Terminal-Bench 2.1 बेंचमार्क पर, Sol Ultra ने 91.9% का चौंकाने वाला स्कोर हासिल किया, जो Claude Mythos 5 (88.0%) और Google के Gemini 3.1 Pro Preview (70.7%) से कहीं अधिक है।

यह मॉडल विशेष विज्ञानों में भी महत्वपूर्ण सफलता प्रदर्शित करता है। GeneBench v1 जीनोमिक्स बेंचमार्क पर, Sol ने 30% स्कोर किया, जो GPT-5.5 द्वारा हासिल किए गए 22% की तुलना में काफी अधिक है, और विशेष रूप से यह कम टोकन की खपत करते हुए किया गया। यह दक्षता बताती है कि OpenAI केवल "बड़े" कंप्यूट के बजाय "स्मार्टर" कंप्यूट पर ध्यान केंद्रित कर रहा है।

साइबर सुरक्षा: रक्षक बनाम हमलावर

साइबर सुरक्षा के क्षेत्र में, Sol का लक्ष्य एक प्रमुख रक्षात्मक उपकरण बनना है। ExploitBench पर—जो Google V8 JavaScript इंजन में कमजोरियों को खोजने और उनका फायदा उठाने की क्षमता का परीक्षण करता है—Sol, Anthropic के Mythos Preview के प्रदर्शन के बराबर है, लेकिन एक महत्वपूर्ण लाभ के साथ: यह लगभग एक-तिहाई आउटपुट टोकन का उपयोग करता है।

OpenAI, Sol को एक स्वायत्त हमलावर के बजाय एक रक्षक के रूप में पेश कर रहा है। Chromium और Firefox से जुड़े परीक्षणों में, मॉडल ने सफलतापूर्वक बग्स और एक्सप्लॉइटेशन प्रिमिटिव्स की पहचान की, लेकिन एक स्वायत्त, फुल-चेन एक्सप्लॉइट बनाने से रुक गया। OpenAI का कहना है कि Sol अपने आंतरिक Preparedness Framework के भीतर "Cyber Critical" सीमा से नीचे रहता है।

सरकारी-नियंत्रित एक्सेस पर विवाद

GPT-5.6 Sol का रोलआउट घर्षण के बिना नहीं है। वर्तमान में, API और Codex के माध्यम से एक्सेस कुछ चुनिंदा भागीदारों तक ही सीमित है, जो अमेरिकी सरकार द्वारा अनिवार्य एक प्रतिबंध है। यह सरकार के Anthropic के Fable 5 को बाजार से हटाने के पिछले निर्णय के बाद हुआ है।

OpenAI ने इन सीमाओं के खिलाफ कड़ा विरोध जताया है, और वर्तमान सरकारी एक्सेस प्रक्रिया को "अस्थिर" (unsustainable) करार दिया है। कंपनी का तर्क है कि ऐसे प्रतिबंध डेवलपर्स, उद्यमों और साइबर रक्षकों को उन उपकरणों तक पहुँचने से रोकते हैं जिनकी उन्हें वैश्विक डिजिटल बुनियादी ढांचे को सुरक्षित करने के लिए आवश्यकता है।

मुख्य बातें

  • टियर आधारित मॉडल रणनीति: OpenAI एक नया पदानुक्रम पेश करता है—Sol (फ्लैगशिप), Terra (मिड-टियर), और Luna (बजट)—साथ ही समानांतर सब-एजेंट टास्क निष्पादन के लिए "Ultra" मोड भी।
  • बेंचमार्क प्रभुत्व: GPT-5.6 Sol Ultra, Terminal-Bench 2.1 पर 91.9% के साथ एजेंटिक कोडिंग में उद्योग का नेतृत्व कर रहा है, जो Claude Mythos और Gemini से काफी बेहतर प्रदर्शन करता है।
  • दक्षता-प्रथम दृष्टिकोण: Sol काफी कम टोकन का उपयोग करते हुए प्रतिस्पर्धी साइबर सुरक्षा और जीनोमिक्स परिणाम प्राप्त करता है, जिससे डेवलपर्स के लिए प्रति कार्य प्रभावी लागत कम हो सकती है।