ثلاثة نماذج ذكاء اصطناعي فقط نجت في محاكاة شركة ناشئة لمدة 500 يوم

تتفوق وكلاء الذكاء الاصطناعي الحاليون في المهام المنفصلة، لكنهم يواجهون صعوبة في التفكير الاستراتيجي المعقد طويل الأمد المطلوب لإدارة الأعمال. يكشف معيار جديد يسمى CEO-Bench أنه بينما تفلس معظم النماذج اللغوية الكبيرة (LLMs) في غضون 500 يوم محاكاة، بدأت قلة مختارة في إظهار علامات على "ذكاء التوجيه" (steering intelligence).

تقديم CEO-Bench: الاختبار النهائي للذكاء الاستراتيجي

انتقل الباحثون إلى ما هو أبعد من اختبارات التلقين (prompting) البسيطة لتطوير CEO-Bench، وهو محاكاة صارمة مصممة لقياس قدرة الوكيل على توجيه مؤسسة بأكملها نحو أهداف طويلة المدى. في هذا المعيار، يتولى وكيل ذكاء اصطناعي السيطرة على "NovaMind"، وهي شركة برمجيات اشتراك خيالية، تبدأ برأس مال قدره مليون دولار وصفر من العملاء.

تم تصميم البيئة لمحاكاة تقلبات العالم الحقيقي. يتفاعل الوكلاء مع Python API تضم 34 أداة وقاعدة بيانات مكونة من 19 جدولاً، مما يتطلب منهم كتابة أكواد مخصصة واستعلامات SQL لاتخاذ القرارات. المخاطر عالية: إذا انخفض الرصيد النقدي للشركة إلى ما دون الصفر في أي وقت خلال فترة الـ 500 يوم، تنتهي المحاكاة بالإفلاس.

تنبع التعقيدات من حلقات التغذية الراجعة المتأخرة. فخلافاً للوكلاء الموجهين نحو المهام، يجب على المدير التنفيذي التعامل مع الجداول الزمنية للبحث والتطوير (R&D)، ودورات السوق، وتوقعات العملاء المتغيرة. القرارات المتخذة في اليوم العاشر - مثل الإنفاق الإعلاني أو فئات التسعير - قد لا تؤدي إلى نتائج ملموسة في نمو المشتركين أو التدفق النقدي إلا بعد أسابيع.

أزمة الإفلاس: لماذا تفشل معظم النماذج

كانت نتائج اختبار الـ 14 نموذجاً صادمة. فبينما تمكنت معظم النماذج من تنفيذ الأوامر الأساسية، إلا أنها افتقرت إلى الاستراتيجية المتماسكة طويلة المدى المطلوبة للحفاظ على الملاءة المالية. فشلت غالبية الوكلاء في التعامل مع عدم اليقين في السوق وأعلنوا إفلاسهم قبل بلوغ علامة الـ 500 يوم.

في مقارنة مثيرة للاهتمام، حققت خوارزمية استدلالية (heuristic) بسيطة تعتمد على القواعد - وهي برنامج غير مدعوم بالذكاء الاصطناعي يستخدم تسعيراً ثابتاً وتعديلات أساسية على السعة - مبلغ 15.76 مليون دولار. وقد تفوق هذا الأداء على كل نموذج LLM تم اختباره تقريباً، مما يثبت أن "الذكاء" بدون توجيه غالباً ما يكون أدنى من خطة عمل أساسية ومنضبطة.

الثلاثة النخبة: Claude و GPT يتصدران المشهد

تمكنت ثلاثة نماذج فقط من إنهاء جولاتهم برأس مال يزيد عن المليون دولار الأولية. أظهرت هذه النماذج القدرة على كشف المعلومات المخفية والتنبؤ بالتدفقات النقدية المستقبلية:

  • Claude Fable 5: الأفضل أداءً، حيث وصل إلى مبلغ مذهل قدره 47.15 مليون دولار وأظهر أكبر قدر من الاستمرارية عبر جولات متعددة.
  • Claude Opus 4.8: حقق 27.8 مليون دولار، مبرهناً على تطور رفيع المستوى من خلال بناء محاكاة داخلية خاصة به لنمذجة مجموعات العملاء (customer cohorts).
  • GPT-5.5: وصل إلى 21.3 مليون دولار، ونجح من خلال تحليل سجلات التفاوض للكشف عن تفضيلات العملاء المخفية.

ومن المثير للاهتمام أن النماذج استخدمت مسارات مختلفة للنجاح. فبينما ركز Opus 4.8 على الاستحواذ العدواني المبكر على العملاء، أعطى GPT-5.5 الأولوية للحفاظ على قاعدة عملاء مستقرة. وفي المقابل، تبنت نماذج مثل Claude Opus 4.7 عقلية "البقاء"، حيث اكتفت بخفض التكاليف لتجنب الإفلاس دون تحقيق أي أرباح كبيرة.

لماذا يهم هذا مستقبل الذكاء الاصطناعي

تشير الفجوة بين أفضل الوكلاء أداءً (47.15 مليون دولار) والحد الأقصى النظري للمحاكاة (2.2 مليار دولار) إلى أن "ذكاء التوجيه" في الذكاء الاصطناعي لا يزال في مهدِه. بالنسبة للمطورين والمؤسسين، يسلط هذا المعيار الضوء على أن الحدود التالية للذكاء الاصطناعي لا تقتصر فقط على تحسين الاستنتاج، بل تتعلق بتحسين الوعي الزمني - أي القدرة على إدارة الموارد والتوقعات عبر فترات طويلة وغير مؤكدة.

أهم الاستنتاجات

  • الفجوة الاستراتيجية: تفتقر معظم نماذج الذكاء الاصطناعي الحالية إلى "ذكاء التوجيه" لإدارة دورات الأعمال طويلة المدى، حيث فشلت الغالبية في اختبار البقاء لمدة 500 يوم.
  • أفضل المؤدين: نجحت نماذج Claude Fable 5 و Claude Opus 4.8 و GPT-5.5 فقط في تنمية رأس مال الشركة بما يتجاوز المليون دولار الأولية.
  • المعيار الاستدلالي: تفوقت خوارزمية بسيطة تعتمد على القواعد وغير مدعومة بالذكاء الاصطناعي على جميع نماذج LLM تقريباً، مما يؤكد أن الاتساق الاستراتيجي أكثر أهمية من قوة المعالجة الخام.