کیوں معیاری AI بینچ مارکس منظم طریقے سے ایجنٹ کی صلاحیتوں کو کم تر انداز میں پیش کرتے ہیں
AI کے موجودہ جانچنے کے طریقے فرنٹیر ماڈلز (frontier models) کی حقیقی صلاحیتوں کو سمجھنے میں ناکام ہو رہے ہیں، اور اکثر کمپیوٹیشنل بجٹ کی کمی کو ذہانت کی کمی سمجھنے کی غلطی کرتے ہیں۔ برطانیہ کے AI سیکیورٹی انسٹی ٹیوٹ (AISI) نے انکشاف کیا ہے کہ AI ایجنٹ کی کارکردگی کوئی مستقل اسکور نہیں ہے، بلکہ ایک اسکیلنگ کرو (scaling curve) ہے جو ٹیسٹ کے وقت کمپیوٹ (test-time compute) میں اضافے کے ساتھ تیزی سے بڑھتی ہے۔
کمپیوٹ-صلاحیت کا کرو (The Compute-Capability Curve)
AISI کی تحقیق کا مرکزی نتیجہ یہ ہے کہ ایک AI ایجنٹ کی کامیابی کی شرح اس کے "ٹیسٹ ٹائم کمپیوٹ" (test-time compute) سے اٹوٹ طور پر جڑی ہوئی ہے—یعنی وہ پروسیسنگ پاور اور ٹوکنز کی مقدار جو ایک ایجنٹ کو کسی کام پر عمل درآمد کے دوران استعمال کرنے کی اجازت دی جاتی ہے۔ جب محققین جانچ کے عمل میں بجٹ کی مقررہ حدیں (fixed budget caps) لگاتے ہیں، تو وہ ماڈل کی زیادہ سے زیادہ صلاحیت کے بجائے اس کی کم از کم صلاحیت کی پیمائش کر رہے ہوتے ہیں۔
یہ رجحان کئی اہم شعبوں میں دیکھا جا سکتا ہے۔ TerminalBench 2.0 اور SWE-Bench Pro جیسے بینچ مارکس کا استعمال کرتے ہوئے سافٹ ویئر انجینئرنگ کے کاموں میں، جب ٹوکن بجٹ ایک ملین سے بڑھا کر دس ملین کر دیا گیا تو کامیابی کی شرح میں تقریباً 25% اضافہ ہوا۔ اسی طرح، "Humanity's Last Exam" میں ریاضیاتی اور تعلیمی کاموں میں 22% کا اضافہ دیکھا گیا جب بجٹ پانچ ملین ٹوکنز تک پہنچ گیا۔
انسانی بمقابلہ AI ٹاسک ٹائم کا پاور لا (The Power Law of Human vs. AI Task Time)
اس مطالعہ نے ایک انسانی ماہر کو کسی کام کے لیے درکار وقت اور ایک AI ایجنٹ کے لیے درکار ٹوکنز کے استعمال کے درمیان ایک براہ راست تعلق قائم کیا ہے۔ یہ تعلق ایک پاور لا (power law) کی پیروی کرتا ہے: ایک کام جو انسان کو ایک منٹ لیتا ہے، ایجنٹ کے لیے ہزاروں ٹوکنز کے برابر ہوتا ہے، جبکہ ایک گھنٹے کا کام لاکھوں ٹوکنز کے برابر ہوتا ہے۔
یہ صورتحال موجودہ ٹیسٹنگ میں ایک بہت بڑا ناقابلِ نظر پہلو (blind spot) پیدا کرتی ہے۔ مثال کے طور پر، AISI کا سائبر سیکیورٹی ٹاسک "The Last Ones" تقریباً 20 گھنٹے کی انسانی مہارت کا تقاضا کرتا ہے۔ انسٹی ٹیوٹ کے ذریعے آزمائے گئے کسی بھی ماڈل نے 30 ملین سے کم ٹوکنز کے ساتھ اس کام کو حل نہیں کیا تھا۔ معیاری اور کم بجٹ والی جانچ کا استعمال کرتے ہوئے، محققین مؤثر طور پر پیمائش کے عمل سے سب سے پیچیدہ اور اہم کاموں کو نکال رہے ہیں۔
تیز رفتار ترقی اور بہتری کے تین محور
AISI کا کہنا ہے کہ فرنٹیر ماڈلز کا "ٹائم ہورائزن" (time horizon)—یعنی وہ پیچیدہ کام جو وہ سنبھال سکتے ہیں—پہلے کے تصور کے مقابلے میں کہیں زیادہ تیزی سے پھیل رہا ہے۔ اگرچہ ابتدائی تخمینوں سے یہ ظاہر ہوا تھا کہ 2.5 ملین ٹوکن کے مقررہ بجٹ پر سائبر ٹاسک کے لیے ٹائم ہورائزن ہر 4.7 ماہ میں دوگنا ہو جاتا ہے، لیکن زیادہ بجٹ پر یہ شرح نمایاں طور پر تیز ہو جاتی ہے۔ 50 ملین ٹوکنز پر، دوگنا ہونے کی شرح تیز ہو کر ہر 40 سے 50 دن میں پہنچ جاتی ہے۔
نئے ماڈلز (جیسے کہ آزمائے گئے GPT اور Claude سیریز) تین مخصوص جہتوں میں بہتری دکھاتے ہیں:
- Reach (رسائی): تیزی سے مشکل ہوتے کاموں سے نمٹنے کی صلاحیت۔
- Reliability (مستقل مزاجی): ایک ہی کام کو زیادہ مستقل مزاجی سے حل کرنے کی صلاحیت۔
- Efficiency (کارکردگی): کم ٹوکنز کا استعمال کرتے ہوئے کاموں کو حل کرنے کی صلاحیت۔
AI سیفٹی اور تعیناتی کے اثرات
یہ تحقیق AI کے جانچنے کے تصور کو "مقررہ اسکورز" سے بدل کر "کمپیوٹ سے آگاہ کرو" (compute-aware curves) میں تبدیل کر دیتی ہے۔ ڈویلپرز اور بانیوں کے لیے اس کا مطلب یہ ہے کہ ایک ماڈل کی افادیت صرف اس کی ٹریننگ پر منحصر نہیں ہے، بلکہ اس بات پر بھی منحصر ہے کہ تعیناتی (deployment) کے دوران کتنا انفرنس کمپیوٹ (inference compute) مختص کیا جاتا ہے۔
جیسے جیسے فی ٹوکن لاگت کم ہوتی جا رہی ہے، وہ صلاحیتیں جو پہلے معاشی طور پر ناقابل عمل معلوم ہوتی تھیں، اب معیاری بن جائیں گی۔ AI سیفٹی اور سیکیورٹی کے لیے، اس کا مطلب یہ ہے کہ خود مختار ایجنٹس سے متعلق خطرات—جیسے کہ پیچیدہ سائبر حملے—کو کافی حد تک کم اندازہ لگایا جا سکتا ہے اگر ریگولیٹرز اور کمپنیاں روایتی، کم بجٹ والے بینچ مارکس پر بھروسہ کرتی ہیں۔
اہم نکات
- بینچ مارکس گمراہ کن ہیں: مقررہ ٹوکن بجٹ ماڈل کی کم از کم کارکردگی کو ظاہر کرتے ہیں، جس سے AI ایجنٹس کی کامیابی کی انتہا (ceiling) کو منظم طریقے سے کم تر انداز میں پیش کیا جاتا ہے۔
- کمپیوٹ صلاحیت کو بڑھاتا ہے: سافٹ ویئر انجینئرنگ اور ریاضی میں کامیابی کی شرح ٹیسٹ ٹائم کمپیوٹ بجٹ میں اضافے کے ساتھ نمایاں طور پر بڑھ جاتی ہے۔
- "دوگنا" ہونے کی شرح تیز ہو رہی ہے: زیادہ کمپیوٹ بجٹ پر، فرنٹیر ماڈلز کے پیچیدہ کاموں میں مہارت حاصل کرنے کی شرح پہلے کے تخمینوں کے مقابلے میں کہیں زیادہ تیز ہے۔
