OpenAI نے Claude Mythos کو چیلنج کرنے کے لیے GPT-5.6 Sol لانچ کر دیا
OpenAI نے باضابطہ طور پر GPT-5.6 Sol کا انکشاف کر دیا ہے، جو کہ ایک جدید ماڈل جنریشن ہے جسے ایجنٹک کوڈنگ (agentic coding) اور سائبر سیکیورٹی کے شعبوں میں برتری حاصل کرنے کے لیے ڈیزائن کیا گیا ہے۔ اگرچہ یہ ریلیز استدلال (reasoning) کی صلاحیتوں میں ایک اہم چھلانگ ہے، لیکن یہ امریکی حکومت کے پابند رسائی پروٹوکولز سے متعلق جاری تنازعات کے درمیان سامنے آئی ہے۔
کارکردگی اور پیمانے کے لیے ایک نیا درجہ بندی شدہ آرکیٹیکچر (Tiered Architecture)
واحد ماڈل ریلیز سے ہٹ کر، OpenAI نے متنوع کاروباری ضروریات کے لیے ایک تہہ دار نام رکھنے کا طریقہ متعارف کرایا ہے۔ یہ آرکیٹیکچر "Sol"، "Terra" اور "Luna" کو مستقل کارکردگی کے درجوں (tiers) کے طور پر استعمال کرتا ہے، جس سے ڈویلپرز کو بجٹ اور پیچیدگی کے مطابق پیمانہ بڑھانے (scale) کی اجازت ملتی ہے۔
اس درجہ بندی میں سب سے اوپر Sol ہے، جو کہ فلیگ شپ ماڈل ہے۔ اس کے نیچے Terra ہے، جو تقریباً نصف قیمت پر GPT-5.5 جیسی کارکردگی فراہم کرتا ہے، اور Luna ہے، جو بجٹ کے لحاظ سے موزوں درجہ ہے۔ زیادہ شدت والے کاموں (high-intensity workloads) کے لیے، OpenAI نے گہری استدلال کے لیے "max" موڈ اور "ultra" موڈ متعارف کرایا ہے، جو کثیر جہتی اور پیچیدہ کاموں سے نمٹنے کے لیے متوازی طور پر چلنے والے سب ایجنٹس (sub-agents) کا استعمال کرتا ہے۔
کوڈنگ اور بیالوجی میں نئے معیار (Benchmarks) قائم کرنا
GPT-5.6 Sol کا بنیادی مقصد Anthropic کے Claude Mythos کلاس سے آگے نکلنا ہے۔ ایجنٹک کوڈنگ کے کاموں میں، اعداد و شمار OpenAI کے دعووں کی تائید کرتے ہیں: Terminal-Bench 2.1 بینچ مارک پر، Sol Ultra نے حیران کن طور پر 91.9% کامیابی حاصل کی، جو Claude Mythos 5 (88.0%) اور Google کے Gemini 3.1 Pro Preview (70.7%) سے کہیں زیادہ ہے۔
یہ ماڈل مخصوص سائنسوں میں بھی اہم پیش رفت کا مظاہرہ کرتا ہے۔ GeneBench v1 جینیومکس بینچ مارک پر، Sol نے 30% اسکور کیا، جو کہ GPT-5.5 کے 22% کے مقابلے میں نمایاں اضافہ ہے، اور خاص بات یہ ہے کہ اس نے کم ٹوکنز استعمال کیے۔ یہ کارکردگی ظاہر کرتی ہے کہ OpenAI صرف "بڑے" کمپیوٹ کے بجائے "سمارٹ" کمپیوٹ پر توجہ مرکوز کر رہا ہے۔
سائبر سیکیورٹی: محافظ بمقابلہ حملہ آور
سائبر سیکیورٹی کے میدان میں، Sol کا مقصد ایک بہترین دفاعی ٹول بننا ہے۔ ExploitBench پر—جو Google V8 JavaScript انجن میں کمزوریوں کو تلاش کرنے اور ان کا فائدہ اٹھانے کی صلاحیت کا امتحان لیتا ہے—Sol، Anthropic کے Mythos Preview جیسی کارکردگی دکھاتا ہے لیکن ایک اہم فائدے کے ساتھ: یہ تقریباً ایک تہائی آؤٹ پٹ ٹوکنز استعمال کرتا ہے۔
OpenAI، Sol کو ایک خود مختار حملہ آور کے بجائے ایک محافظ کے طور پر پیش کر رہا ہے۔ Chromium اور Firefox سے متعلق ٹیسٹوں میں، ماڈل نے کامیابی سے بگ (bugs) اور ایکسپلائٹیشن پرائمٹیوز (exploitation primitives) کی نشاندہی کی لیکن ایک خود مختار، مکمل چین ایکسپلائٹ تیار کرنے سے گریز کیا۔ OpenAI کا موقف ہے کہ Sol اپنے اندرونی Preparedness Framework کے اندر "Cyber Critical" حد سے نیچے رہتا ہے۔
حکومتی کنٹرول شدہ رسائی پر تنازعہ
GPT-5.6 Sol کی لانچنگ بلا جھجھک نہیں رہی۔ فی الحال، رسائی API اور Codex کے ذریعے چند منتخب شراکت داروں تک محدود ہے، جو کہ امریکی حکومت کی طرف سے عائد کردہ پابندی ہے۔ یہ حکومت کے اس سابقہ فیصلے کے بعد ہوا ہے جس میں Anthropic کے Fable 5 کو مارکیٹ سے ہٹانے کا حکم دیا گیا تھا۔
OpenAI نے ان حدود کے خلاف سخت مخالفت کا اظہار کیا ہے، اور موجودہ حکومتی رسائی کے عمل کو "ناقابل استحکام" قرار دیا ہے۔ کمپنی کا استدال ہے کہ اس طرح کی پابندیاں ڈویلپرز، اداروں اور سائبر محافظوں کو ان ٹولز تک رسائی حاصل کرنے سے روکتی ہیں جن کی انہیں عالمی ڈیجیٹل انفراسٹرکچر کو محفوظ بنانے کے لیے ضرورت ہے۔
اہم نکات
- درجہ بندی شدہ ماڈل کی حکمت عملی: OpenAI ایک نئی درجہ بندی متعارف کروا رہا ہے—Sol (فلیگ شپ)، Terra (مڈ ٹائر)، اور Luna (بجٹ)—ساتھ ہی متوازی سب ایجنٹ ٹاسک ایگزیکیوشن کے لیے "Ultra" موڈ بھی پیش کیا گیا ہے۔
- بینچ مارک پر برتری: GPT-5.6 Sol Ultra، Terminal-Bench 2.1 پر 91.9% کے ساتھ ایجنٹک کوڈنگ میں صنعت کی قیادت کر رہا ہے، جو Claude Mythos اور Gemini سے نمایاں طور پر بہتر کارکردگی دکھاتا ہے۔
- کارکردگی کو ترجیح دینے والا طریقہ کار: Sol نمایاں طور پر کم ٹوکنز استعمال کرتے ہوئے مسابقتی سائبر سیکیورٹی اور جینیومکس کے نتائج حاصل کرتا ہے، جس سے ڈویلپرز کے لیے فی ٹاسک مؤثر لاگت کم ہو سکتی ہے۔
