تنها سه مدل هوش مصنوعی در شبیه‌سازی ۵۰۰ روزه استارتاپ زنده ماندند

عوامل هوش مصنوعی فعلی در انجام وظایف مجزا مهارت دارند، اما در تفکر استراتژیک پیچیده و بلندمدت که برای اداره یک کسب‌وکار لازم است، دچار مشکل می‌شوند. بنچمارک جدیدی به نام CEO-Bench نشان می‌دهد که در حالی که اکثر مدل‌های زبانی بزرگ (LLMs) در عرض ۵۰۰ روز شبیه‌سازی شده ورشکست می‌شوند، تعداد معدودی از آن‌ها شروع به نشان دادن نشانه‌هایی از «هوش هدایت‌گر» (steering intelligence) کرده‌اند.

معرفی CEO-Bench: آزمون نهایی هوش استراتژیک

محققان از آزمون‌های ساده‌ی پرامپت‌نویسی فراتر رفته‌اند تا CEO-Bench را توسعه دهند؛ یک شبیه‌سازی دقیق که برای سنجش توانایی یک عامل در هدایت کل یک سازمان به سمت اهداف بلندمدت طراحی شده است. در این بنچمارک، یک عامل هوش مصنوعی کنترل «NovaMind» را به دست می‌گیرد؛ یک شرکت نرم‌افزاری اشتراکی خیالی که با ۱ میلیون دلار سرمایه و صفر مشتری شروع به کار می‌کند.

این محیط برای تقلید از نوسانات دنیای واقعی طراحی شده است. عوامل با یک Python API شامل ۳۴ ابزار و یک پایگاه داده با ۱۹ جدول تعامل دارند که آن‌ها را ملزم می‌کند برای تصمیم‌گیری، کد سفارشی و پرس‌وجوهای SQL بنویسند. ریسک کار بسیار بالاست: اگر موجودی نقدی شرکت در هر مرحله از دوره ۵۰۰ روزه به زیر صفر برسد، شبیه‌سازی با ورشکستگی پایان می‌یابد.

پیچیدگی کار از حلقه‌های بازخورد با تأخیر ناشی می‌شود. برخلاف عوامل وظیفه‌محور، یک مدیرعامل باید در میان بازه‌های زمانی تحقیق و توسعه (R&D)، چرخه‌های بازار و انتظارات متغیر مشتریان حرکت کند. تصمیماتی که در روز دهم گرفته می‌شوند — مانند هزینه تبلیغات یا سطوح قیمت‌گذاری — ممکن است تا هفته‌ها بعد نتایج ملموسی در رشد مشترکین یا جریان نقدی نشان ندهند.

بحران ورشکستگی: چرا اکثر مدل‌ها شکست می‌خورند

نتایج آزمایش روی ۱۴ مدل تکان‌دهنده بود. در حالی که اکثر مدل‌ها می‌توانستند دستورات پایه را اجرا کنند، فاقد استراتژی بلندمدت منسجم برای حفظ توان مالی بودند. اکثریت عوامل در مدیریت عدم قطعیت بازار شکست خوردند و پیش از رسیدن به مرز ۵۰۰ روز ورشکست شدند.

در یک مقایسه خیره‌کننده، یک روش اکتشافی (heuristic) ساده مبتنی بر قانون — یک برنامه غیر هوش مصنوعی که از قیمت‌گذاری ثابت و تنظیمات پایه ظرفیت استفاده می‌کرد — به ۱۵.۷۶ میلیون دلار رسید. این نتیجه تقریباً از تمام LLMهای آزمایش‌شده بهتر بود و ثابت کرد که «هوش» بدون جهت‌گیری، اغلب از یک برنامه تجاری ساده و منضبط ضعیف‌تر است.

سه برتر: Claude و GPT پیشتاز هستند

تنها سه مدل موفق شدند دور خود را با سرمایه‌ای بیش از ۱ میلیون دلار اولیه به پایان برسانند. این مدل‌ها توانایی کشف اطلاعات پنهان و پیش‌بینی جریان‌های نقدی آینده را از خود نشان دادند:

  • Claude Fable 5: بهترین عملکرد با رسیدن به رقم خیره‌کننده ۴۷.۱۵ میلیون دلار و نشان دادن بیشترین ثبات در چندین دور اجرا.
  • Claude Opus 4.8: با دستیابی به ۲۷.۸ میلیون دلار، با ساخت شبیه‌سازی داخلی خود برای مدل‌سازی گروه‌های مشتری (customer cohorts)، پیچیدگی سطح بالایی را نشان داد.
  • GPT-5.5: با رسیدن به ۲۱.۳ میلیون دلار، از طریق تحلیل تاریخچه مذاکرات برای کشف ترجیحات پنهان مشتریان موفق شد.

جالب اینجاست که مدل‌ها از مسیرهای متفاوتی برای رسیدن به موفقیت استفاده کردند. در حالی که Opus 4.8 بر جذب تهاجمی مشتری در مراحل اولیه تمرکز داشت، GPT-5.5 حفظ پایگاه مشتری ثابت را در اولویت قرار داد. در مقابل، مدل‌هایی مانند Claude Opus 4.7 ذهنیت «بقا‌محور» داشتند و صرفاً برای جلوگیری از ورشکستگی به کاهش هزینه‌ها پرداختند، بدون اینکه هرگز سود قابل توجهی ایجاد کنند.

چرا این موضوع برای آینده هوش مصنوعی اهمیت دارد

شکاف بین بهترین عوامل ($۴۷.۱۵ میلیون) و حد بالای تئوریک شبیه‌سازی ($۲.۲ میلیارد) نشان می‌دهد که «هوش هدایت‌گر» هوش مصنوعی هنوز در مراحل اولیه خود است. برای توسعه‌دهندگان و بنیان‌گذاران، این بنچمارک برجسته می‌کند که مرز بعدی هوش مصنوعی تنها استدلال بهتر نیست، بلکه آگاهی زمانی (temporal awareness) بهتر است — یعنی توانایی مدیریت منابع و انتظارات در دوره‌های طولانی و نامطمئن.

نکات کلیدی

  • شکاف استراتژیک: اکثر مدل‌های فعلی هوش مصنوعی فاقد «هوش هدایت‌گر» برای مدیریت چرخه‌های تجاری بلندمدت هستند و اکثریت در آزمون بقای ۵۰۰ روزه شکست می‌خورند.
  • برترین‌ها: تنها Claude Fable 5، Claude Opus 4.8 و GPT-5.5 موفق شدند سرمایه شرکت را به بیش از ۱ میلیون دلار اولیه افزایش دهند.
  • بنچمارک اکتشافی: یک الگوریتم ساده و غیر هوش مصنوعی مبتنی بر قانون، تقریباً از تمام LLMها بهتر عمل کرد که نشان می‌دهد ثبات استراتژیک حیاتی‌تر از قدرت پردازش خام است.