نئے MirrorCode بینچ مارک میں AI ماڈلز 19 دنوں تک مسلسل چلتے رہے
خود مختار سافٹ ویئر انجینئرنگ کا منظرنامہ سادہ کوڈ اسنیپٹس (code snippets) سے بدل کر بڑے پیمانے پر، کئی دنوں تک جاری رہنے والے پروگرامنگ میراتھن کی طرف منتقل ہو رہا ہے۔ Epoch AI اور METR کا ایک نیا بینچ مارک، جسے MirrorCode کہا جاتا ہے، یہ ظاہر کرتا ہے کہ AI ماڈلز اب پیچیدہ ری امپلیمنٹیشن (reimplementation) کے کاموں کو انجام دے سکتے ہیں جن کے لیے پہلے ہفتوں کی انسانی محنت درکار ہوتی تھی۔
MirrorCode کے ذریعے AI کو چیلنج کرنا
MirrorCode روایتی سافٹ ویئر انجینئرنگ بینچ مارکس سے ایک نمایاں فرق رکھتا ہے جو عام طور پر فی ٹاسک انفرنس (inference) کے اخراجات کو محض 1 سے 10 ڈالر تک محدود رکھتے ہیں۔ اس کے برعکس، یہ بینچ مارک AI ماڈلز سے تقاضا کرتا ہے کہ وہ اصل سورس کوڈ تک رسائی کے بغیر مکمل اور پیچیدہ پروگراموں کو شروع سے دوبارہ تیار (reimplement) کریں—جس میں Unix utilities اور cryptography سے لے کر bioinformatics اور data serialization تک شامل ہیں۔ حقیقی فنکشنل برابری کو یقینی بنانے کے لیے، AI کے ذریعے تیار کردہ ہر حل کو ان پوشیدہ end-to-end ٹیسٹوں سے گزرنا پڑتا ہے جو ماڈل اپنے ڈویلپمنٹ کے مرحلے کے دوران کبھی نہیں دیکھتا۔
ان کاموں کا پیمانہ بے مثال ہے۔ بینچ مارک میں ایک مخصوص ٹاسک کے لیے AI ماڈل کو کسی بھی انسانی مداخلت کے بغیر مسلسل 19 دنوں تک کام کرنے کی ضرورت پڑی، جس کے نتیجے میں ایک ہی بار چلانے (single run) کی انفرنس لاگت 2,600 ڈالر رہی۔
Claude Opus 4.7 ریس میں سب سے آگے
بینچ مارک کے نتائج موجودہ فرنٹیر (frontier) ماڈلز میں ایک واضح درجہ بندی کو اجاگر کرتے ہیں۔ Claude Opus 4.7 56 فیصد حل کرنے کی شرح (solve rate) کے ساتھ لیڈر کے طور پر ابھرا، جس نے GPT-5.5 (جس نے 44 فیصد حاصل کیا) اور Gemini 3.1 Pro Preview (جو 32 فیصد پر رہا) کو نمایاں طور پر پیچھے چھوڑ دیا۔
ایک نمایاں کامیابی bioinformatics ٹول کٹ gotree سے متعلق تھی۔ اس پروگرام میں Go کوڈ کی تقریباً 16,000 لائنیں شامل ہیں اور اس میں 40 سے زیادہ مختلف کمانڈز موجود ہیں۔ جہاں ایک انسانی انجینئر کو ایسا کام مکمل کرنے کے لیے عام طور پر 2 سے 17 ہفتوں کی ضرورت ہوگی، وہیں Claude Opus 4.7 نے اسے محض 14 گھنٹوں میں 251 ڈالر کی لاگت سے کامیابی سے دوبارہ تیار کر لیا۔ یہاں تک کہ ان معاملات میں بھی جہاں ماڈلز 100 فیصد مکمل ری امپلیمنٹیشن حاصل کرنے میں ناکام رہتے ہیں، وہ حیرت انگیز طور پر 90 فیصد سے زیادہ فنکشنل ٹیسٹ پاس کر لیتے ہیں۔
پیچیدگی کا فرق اور یادداشت (Memorization) کے خطرات
ان چھلانگوں کے باوجود، MirrorCode کے نتائج ایک واضح "پیچیدگی کی حد" (complexity ceiling) کو ظاہر کرتے ہیں۔ اگرچہ تمام آزمودہ ماڈلز uuid یا parseqsv جیسے چھوٹے پروگراموں کو قابل اعتماد طریقے سے سنبھالتے ہیں، لیکن فی الحال کسی بھی ماڈل میں "بڑے" (large) زمرے کے کاموں کو مکمل طور پر حل کرنے کی صلاحیت نہیں ہے۔ AI کوڈنگ کا میدان اب بھی انتہائی بڑے اور باہم مربوط سافٹ ویئر آرکیٹیکچرز کا سامنا کرنے پر جدوجہد کر رہا ہے۔
Epoch AI نے LLM کی جانچ میں ایک اہم خدشے کو بھی اٹھایا ہے: ڈیٹا کنٹیمینیشن (data contamination)۔ چونکہ یہ بینچ مارک اوپن سورس پروگراموں کا استعمال کرتا ہے، اس لیے یہ خطرہ ہے کہ ماڈلز نے اپنی ٹریننگ کے دوران اصل کوڈ پہلے ہی یاد کر لیا ہو۔ اگرچہ ابتدائی نتائج بتاتے ہیں کہ کارکردگی صرف یادداشت (memorization) پر مبنی نہیں ہے، لیکن محققین تسلیم کرتے ہیں کہ وہ موجودہ حل کی شرح میں اس کے کردار کو مکمل طور پر مسترد نہیں کر سکتے۔
یہ AI انڈسٹری کے لیے کیوں اہم ہے
MirrorCode "AI بطور کو پائلٹ" (AI as a Copilot) سے "AI بطور خود مختار ایجنٹ" (AI as an Autonomous Agent) کی طرف منتقلی کا اشارہ دیتا ہے۔ یہ ثابت کر کے کہ ماڈلز 19 دنوں کے دورانیے تک استدلال (reasoning) برقرار رکھ سکتے ہیں اور ہزاروں لائنوں کے کوڈ کو سنبھال سکتے ہیں، انڈسٹری ایسے ایجنٹس کے قریب پہنچ رہی ہے جو پورے سافٹ ویئر لائف سائیکل کو مینیج کرنے کی صلاحیت رکھتے ہیں۔ جیسے جیسے انفرنس کے اخراجات میں اتار چڑھاؤ آ رہا ہے—جہاں GPT-5.5 کی لاگت اپنے پچھلے ورژن سے تین گنا زیادہ ہے جبکہ Claude Opus 4.7 تین گنا زیادہ کارآمد ہو گیا ہے—خود مختار انجینئرنگ کی معاشی افادیت اگلی بڑی سرحد ہوگی۔
اہم نکات
- استدلال کا نیا پیمانہ: MirrorCode بڑے پیمانے پر انفرنس بجٹ کی اجازت دے کر AI کی حدود کو آگے بڑھاتا ہے، جس میں ایک ایک ٹاسک کی لاگت 2,600 ڈالر تک ہو سکتی ہے اور یہ 19 دنوں تک چل سکتا ہے۔
- کارکردگی میں Claude کی برتری: Claude Opus 4.7 فی الحال 56% حل کرنے کی شرح کے ساتھ بینچ مارک لیڈر ہے، جو بڑے پیمانے پر Go کوڈ بیسز کو دوبارہ تیار کرنے میں اعلیٰ صلاحیتوں کا مظاہرہ کرتا ہے۔
- پیچیدگی کی رکاوٹیں برقرار ہیں: اگرچہ چھوٹے پیمانے کے کاموں کو قابل اعتماد طریقے سے حل کیا جا رہا ہے، لیکن ابھی تک کوئی بھی موجودہ ماڈل انتہائی پیچیدہ اور بڑے پیمانے کے پروگرامنگ کاموں کو مکمل طور پر حل کرنے کی صلاحیت نہیں رکھتا۔
