صرف تین AI ماڈلز 500 روزہ اسٹارٹ اپ سیمولیشن میں بچ پائے

موجودہ AI ایجنٹس الگ الگ کاموں میں مہارت رکھتے ہیں، لیکن وہ کاروبار چلانے کے لیے درکار پیچیدہ اور طویل مدتی اسٹریٹجک سوچ میں جدوجہد کرتے ہیں۔ CEO-Bench نامی ایک نیا بینچ مارک ظاہر کرتا ہے کہ اگرچہ زیادہ تر لارج لینگویج ماڈلز (LLMs) 500 فرضی دنوں کے اندر دیوالیہ ہو جاتے ہیں، لیکن چند منتخب ماڈلز "اسٹیئرنگ انٹیلی جنس" (steering intelligence) کی علامات دکھانا شروع کر رہے ہیں۔

CEO-Bench کا تعارف: اسٹریٹجک ذہانت کا حتمی امتحان

محققین نے سادہ پرومپٹنگ ٹیسٹوں سے آگے بڑھ کر CEO-Bench تیار کیا ہے، جو ایک سخت سیمولیشن ہے جسے کسی ایجنٹ کی پوری تنظیم کو طویل مدتی اہداف کی طرف لے جانے کی صلاحیت کو ماپنے کے لیے ڈیزائن کیا گیا ہے۔ اس بینچ مارک میں، ایک AI ایجنٹ "NovaMind" نامی ایک فرضی سبسکرپشن سافٹ ویئر کمپنی کا کنٹرول سنبھالتا ہے، جس کا آغاز 1 ملین ڈالر کے سرمایے اور صفر صارفین سے ہوتا ہے۔

یہ ماحول حقیقی دنیا کے اتار چڑھاؤ کی نقل کرنے کے لیے ڈیزائن کیا گیا ہے۔ ایجنٹس 34 ٹولز اور 19 ٹیبلز پر مشتمل ایک Python API کے ساتھ بات چیت کرتے ہیں، جس کے لیے انہیں فیصلے کرنے کے لیے کسٹم کوڈ اور SQL queries لکھنی پڑتی ہیں۔ داؤ پر بہت کچھ لگا ہے: اگر 500 دنوں کے دوران کسی بھی وقت کمپنی کا نقد بیلنس زیرو سے نیچے گر جاتا ہے، تو سیمولیشن دیوالیہ ہونے پر ختم ہو جاتی ہے۔

پیچیدگی تاخیر سے ملنے والے فیڈ بیک لوپس (feedback loops) سے پیدا ہوتی ہے۔ کام پر مبنی ایجنٹس کے برعکس، ایک CEO کو R&D ٹائم لائنز، مارکیٹ سائیکلز اور بدلتی ہوئی صارفین کی توقعات کے درمیان راستہ بنانا پڑتا ہے۔ 10 ویں دن کیے گئے فیصلے—جیسے اشتہارات پر اخراجات یا قیمتوں کے درجے—ممکن ہے کہ ہفتوں بعد سبسکرائبرز کے بڑھنے یا کیش فلو میں نظر آنے والے نتائج فراہم کریں۔

دیوالیہ ہونے کا بحران: زیادہ تر ماڈلز کیوں ناکام ہوتے ہیں

14 ماڈلز کے ٹیسٹ کے نتائج فکر انگیز تھے۔ اگرچہ زیادہ تر ماڈلز بنیادی کمانڈز کو نافذ کر سکتے تھے، لیکن ان میں مالی طور پر مستحکم رہنے کے لیے درکار مربوط طویل مدتی حکمت عملی کی کمی تھی۔ زیادہ تر ایجنٹس مارکیٹ کے غیر یقینی حالات سے نمٹنے میں ناکام رہے اور 500 دن مکمل ہونے سے پہلے ہی دیوالیہ ہو گئے۔

ایک حیرت انگیز موازنہ میں، ایک سادہ رول بیسڈ ہیورسٹک (rule-based heuristic)—جو کہ فکسڈ پرائسنگ اور بنیادی صلاحیتوں کی ایڈجسٹمنٹ استعمال کرنے والا ایک غیر AI پروگرام ہے—15.76 ملین ڈالر تک پہنچ گیا۔ اس نے تقریباً ہر ٹیسٹ شدہ LLM کو پیچھے چھوڑ دیا، جو یہ ثابت کرتا ہے کہ سمت کے بغیر "ذہانت" اکثر ایک بنیادی اور منظم کاروباری منصوبے سے کم تر ہوتی ہے۔

بہترین تین: Claude اور GPT سب سے آگے

صرف تین ماڈلز ہی اپنے دورانیے کو ابتدائی 1 ملین ڈالر کے سرمایے سے زیادہ کے ساتھ مکمل کرنے میں کامیاب رہے۔ ان ماڈلز نے چھپی ہوئی معلومات کو بے نقاب کرنے اور مستقبل کے کیش فلو کی پیش گوئی کرنے کی صلاحیت کا مظاہرہ کیا:

  • Claude Fable 5: سب سے بہترین کارکردگی دکھانے والا، جو حیران کن طور پر 47.15 ملین ڈالر تک پہنچا اور متعدد بار چلانے پر سب سے زیادہ تسلسل دکھایا۔
  • Claude Opus 4.8: 27.8 ملین ڈالر حاصل کیے، اور کسٹمر کوہورٹس (customer cohorts) کا ماڈل بنانے کے لیے اپنی اندرونی سیمولیشن بنا کر اعلیٰ درجے کی مہارت کا مظاہرہ کیا۔
  • GPT-5.5: 21.3 ملین ڈالر تک پہنچا، اور صارفین کی چھپی ہوئی ترجیحات کو جاننے کے لیے مذاکرات کی تاریخوں کا تجزیہ کر کے کامیابی حاصل کی۔

دلچسپ بات یہ ہے کہ ماڈلز نے کامیابی کے لیے مختلف راستے اختیار کیے۔ جہاں Opus 4.8 نے شروع میں تیزی سے صارفین حاصل کرنے پر توجہ مرکوز کی، وہیں GPT-5.5 نے صارفین کی ایک مستحکم بنیاد برقرار رکھنے کو ترجیح دی۔ اس کے برعکس، Claude Opus 4.7 جیسے ماڈلز نے "بقا پسند" (survivalist) ذہنیت اپنائی، جس میں انہوں نے کوئی بڑا منافع کمائے بغیر محض دیوالیہ ہونے سے بچنے کے لیے اخراجات میں کٹوتی کی۔

یہ AI کے مستقبل کے لیے کیوں اہم ہے

بہترین کارکردگی دکھانے والے ایجنٹس ($47.15M) اور سیمولیشن کی نظریاتی حد ($2.2B) کے درمیان فرق یہ ظاہر کرتا ہے کہ AI کی "اسٹیئرنگ انٹیلی جنس" ابھی اپنے ابتدائی مراحل میں ہے۔ ڈویلپرز اور بانیوں کے لیے، یہ بینچ مارک اس بات پر روشنی ڈالتا ہے کہ AI کی اگلی سرحد صرف بہتر استدلال (reasoning) نہیں ہے، بلکہ بہتر زمانی آگاہی (temporal awareness) ہے—یعنی طویل اور غیر یقینی مدتوں کے دوران وسائل اور توقعات کو سنبھالنے کی صلاحیت۔

اہم نکات

  • اسٹریٹجک فرق: زیادہ تر موجودہ AI ماڈلز میں طویل مدتی کاروباری چکروں کو سنبھالنے کے لیے "اسٹیئرنگ انٹیلی جنس" کی کمی ہے، اور اکثریت 500 روزہ بقا کے ٹیسٹ میں ناکام ہو جاتی ہے۔
  • بہترین کارکردگی دکھانے والے: صرف Claude Fable 5، Claude Opus 4.8، اور GPT-5.5 کمپنی کے سرمایے کو ابتدائی 1 ملین ڈالر سے بڑھانے میں کامیاب رہے۔
  • ہیورسٹک بینچ مارک: ایک سادہ، غیر AI رول بیسڈ الگورتھم نے تقریباً تمام LLMs کو پیچھے چھوڑ دیا، جو اس بات پر زور دیتا ہے کہ خام پروسیسنگ پاور کے مقابلے میں اسٹریٹجک تسلسل زیادہ اہم ہے۔