Claude Mythos ला आव्हान देण्यासाठी OpenAI ने GPT-5.6 Sol लाँच केले

OpenAI ने अधिकृतपणे GPT-5.6 Sol सादर केले आहे, जे 'agentic coding' आणि 'cybersecurity' क्षेत्रांवर वर्चस्व गाजवण्यासाठी डिझाइन केलेले एक प्रगत नवीन मॉडेल जनरेशन आहे. हे मॉडेल तर्कक्षमता (reasoning capabilities) मध्ये मोठी झेप घेणारे असले तरी, अमेरिकन सरकारच्या कडक प्रवेश नियमांमुळे (access protocols) निर्माण झालेल्या वादाच्या पार्श्वभूमीवर हे लाँच झाले आहे.

कार्यक्षमता आणि स्केलसाठी एक नवीन टियर्ड आर्किटेक्चर (Tiered Architecture)

केवळ एकच मॉडेल लाँच करण्याऐवजी, OpenAI ने विविध एंटरप्राइझ गरजांसाठी एक स्तरित (layered) नामकरण पद्धत सुरू केली आहे. हे आर्किटेक्चर "Sol," "Terra," आणि "Luna" चा वापर कायमस्वरूपी परफॉर्मन्स टियर्स (performance tiers) म्हणून करते, ज्यामुळे डेव्हलपर्सना त्यांच्या बजेट आणि गुंतागुंतीनुसार स्केल करणे शक्य होईल.

या श्रेणीमध्ये सर्वात वर Sol हे फ्लॅगशिप मॉडेल आहे. त्याच्या खाली Terra आहे, जे GPT-5.5 च्या कामगिरीशी मिळतेजुळते असून त्याचा खर्च साधारणतः अर्धा आहे, आणि Luna हा बजेट-फ्रेंडली टियर आहे. उच्च-तीव्रतेच्या कामांसाठी (high-intensity workloads), OpenAI ने सखोल तर्कासाठी (deep reasoning) "max" मोड आणि बहुआयामी, जटिल कार्ये हाताळण्यासाठी समांतर चालणाऱ्या सब-एजंट्सचा (sub-agents) वापर करणारा "ultra" मोड सादर केला आहे.

कोडिंग आणि जीवशास्त्रामध्ये नवीन बेंचमार्क प्रस्थापित करणे

GPT-5.6 Sol चे मुख्य उद्दिष्ट Anthropic च्या Claude Mythos क्लासला मागे टाकणे हे आहे. 'Agentic coding' कामांमध्ये, आकडेवारी OpenAI च्या दाव्यांचे समर्थन करते: Terminal-Bench 2.1 बेंचमार्कवर, Sol Ultra ने ९१.९% असा थक्क करणारा स्कोअर मिळवला, ज्याने Claude Mythos 5 (८८.०%) आणि Google च्या Gemini 3.1 Pro Preview (७०.७%) ला मागे टाकले आहे.

हे मॉडेल विशेष विज्ञानामध्येही महत्त्वपूर्ण प्रगती दर्शवते. GeneBench v1 genomics बेंचमार्कवर, Sol ने ३०% स्कोअर मिळवला, जो GPT-5.5 ने मिळवलेल्या २२% पेक्षा लक्षणीयरीत्या जास्त आहे, आणि विशेष म्हणजे हे कमी टोकन्स वापरून साध्य झाले आहे. ही कार्यक्षमता सूचित करते की OpenAI केवळ "मोठ्या" (larger) कम्प्युटवर लक्ष केंद्रित न करता "स्मार्टर" (smarter) कम्प्युटवर लक्ष केंद्रित करत आहे.

सायबर सुरक्षा: रक्षक विरुद्ध हल्लेखोर

सायबर सुरक्षेच्या क्षेत्रात, Sol हे एक प्रमुख संरक्षणात्मक साधन (defensive tool) बनण्याचे लक्ष्य ठेवून आहे. ExploitBench वर—जे Google V8 JavaScript इंजिनमधील त्रुटी (vulnerabilities) शोधण्याची आणि त्यांचा फायदा घेण्याची क्षमता तपासते—Sol ने Anthropic च्या Mythos Preview च्या कामगिरीशी स्पर्धा केली आहे, परंतु एका महत्त्वाच्या फायद्यासह: हे साधारणपणे एक तृतीयांश आउटपुट टोकन्स वापरते.

OpenAI, Sol ला स्वायत्त हल्लेखोर (autonomous attacker) म्हणून नाही, तर एक रक्षक म्हणून सादर करत आहे. Chromium आणि Firefox संबंधित चाचण्यांमध्ये, मॉडेलने यशस्वीरित्या बग्स आणि 'exploitation primitives' ओळखले, परंतु स्वायत्त, 'full-chain exploit' तयार करण्यापासून ते थांबले. OpenAI चा असा दावा आहे की Sol त्यांच्या अंतर्गत 'Preparedness Framework' मध्ये "Cyber Critical" मर्यादेच्या खाली राहते.

सरकारी-नियंत्रित प्रवेशावरून वाद

GPT-5.6 Sol चे लाँच वादविवादाशिवाय नाही. सध्या, अमेरिकन सरकारच्या आदेशानुसार, API आणि Codex द्वारे केवळ काही निवडक भागीदारांनाच याचा प्रवेश मर्यादित आहे. हे सरकारच्या Anthropic च्या Fable 5 ला बाजारातून काढून टाकण्याच्या मागील निर्णयाच्या अनुषंगाने घडत आहे.

OpenAI ने या मर्यादांना तीव्र विरोध दर्शवला असून, सध्याची सरकारी प्रवेश प्रक्रिया "अस्थिर" (unsustainable) असल्याचे म्हटले आहे. कंपनीचा असा युक्तिवाद आहे की अशा मर्यादांमुळे डेव्हलपर्स, एंटरप्राइजेस आणि सायबर रक्षक यांना जागतिक डिजिटल पायाभूत सुविधा सुरक्षित करण्यासाठी आवश्यक असलेल्या साधनांपर्यंत पोहोचण्यापासून रोखले जाते.

मुख्य मुद्दे

  • टियर्ड मॉडेल स्ट्रॅटेजी: OpenAI ने एक नवीन श्रेणी सादर केली आहे—Sol (फ्लॅगशिप), Terra (मिड-टियर), आणि Luna (बजेट)—यासोबतच समांतर सब-एजंट टास्क एक्झिक्यूशनसाठी "Ultra" मोड देखील उपलब्ध आहे.
  • बेंचमार्क वर्चस्व: GPT-5.6 Sol Ultra ने Terminal-Bench 2.1 वर ९१.९% स्कोअरसह 'agentic coding' मध्ये उद्योगाचे नेतृत्व केले आहे, ज्याने Claude Mythos आणि Gemini ला मागे टाकले आहे.
  • कार्यक्षमता-प्रथम दृष्टिकोन: Sol कमी टोकन्स वापरून स्पर्धात्मक सायबर सुरक्षा आणि जीनोमिक्स निकाल मिळवते, ज्यामुळे डेव्हलपर्ससाठी प्रति कार्य प्रभावी खर्च कमी होऊ शकतो.