تنها سه مدل هوش مصنوعی در شبیهسازی ۵۰۰ روزه استارتاپ زنده ماندند
عوامل هوش مصنوعی فعلی در انجام وظایف مجزا مهارت دارند، اما در تفکر استراتژیک پیچیده و بلندمدت که برای اداره یک کسبوکار لازم است، دچار مشکل میشوند. بنچمارک جدیدی به نام CEO-Bench نشان میدهد که در حالی که اکثر مدلهای زبانی بزرگ (LLMs) در عرض ۵۰۰ روز شبیهسازی شده ورشکست میشوند، تعداد معدودی از آنها شروع به نشان دادن نشانههایی از «هوش هدایتگر» (steering intelligence) کردهاند.
معرفی CEO-Bench: آزمون نهایی هوش استراتژیک
محققان از آزمونهای سادهی پرامپتنویسی فراتر رفتهاند تا CEO-Bench را توسعه دهند؛ یک شبیهسازی دقیق که برای سنجش توانایی یک عامل در هدایت کل یک سازمان به سمت اهداف بلندمدت طراحی شده است. در این بنچمارک، یک عامل هوش مصنوعی کنترل «NovaMind» را به دست میگیرد؛ یک شرکت نرمافزاری اشتراکی خیالی که با ۱ میلیون دلار سرمایه و صفر مشتری شروع به کار میکند.
این محیط برای تقلید از نوسانات دنیای واقعی طراحی شده است. عوامل با یک Python API شامل ۳۴ ابزار و یک پایگاه داده با ۱۹ جدول تعامل دارند که آنها را ملزم میکند برای تصمیمگیری، کد سفارشی و پرسوجوهای SQL بنویسند. ریسک کار بسیار بالاست: اگر موجودی نقدی شرکت در هر مرحله از دوره ۵۰۰ روزه به زیر صفر برسد، شبیهسازی با ورشکستگی پایان مییابد.
پیچیدگی کار از حلقههای بازخورد با تأخیر ناشی میشود. برخلاف عوامل وظیفهمحور، یک مدیرعامل باید در میان بازههای زمانی تحقیق و توسعه (R&D)، چرخههای بازار و انتظارات متغیر مشتریان حرکت کند. تصمیماتی که در روز دهم گرفته میشوند — مانند هزینه تبلیغات یا سطوح قیمتگذاری — ممکن است تا هفتهها بعد نتایج ملموسی در رشد مشترکین یا جریان نقدی نشان ندهند.
بحران ورشکستگی: چرا اکثر مدلها شکست میخورند
نتایج آزمایش روی ۱۴ مدل تکاندهنده بود. در حالی که اکثر مدلها میتوانستند دستورات پایه را اجرا کنند، فاقد استراتژی بلندمدت منسجم برای حفظ توان مالی بودند. اکثریت عوامل در مدیریت عدم قطعیت بازار شکست خوردند و پیش از رسیدن به مرز ۵۰۰ روز ورشکست شدند.
در یک مقایسه خیرهکننده، یک روش اکتشافی (heuristic) ساده مبتنی بر قانون — یک برنامه غیر هوش مصنوعی که از قیمتگذاری ثابت و تنظیمات پایه ظرفیت استفاده میکرد — به ۱۵.۷۶ میلیون دلار رسید. این نتیجه تقریباً از تمام LLMهای آزمایششده بهتر بود و ثابت کرد که «هوش» بدون جهتگیری، اغلب از یک برنامه تجاری ساده و منضبط ضعیفتر است.
سه برتر: Claude و GPT پیشتاز هستند
تنها سه مدل موفق شدند دور خود را با سرمایهای بیش از ۱ میلیون دلار اولیه به پایان برسانند. این مدلها توانایی کشف اطلاعات پنهان و پیشبینی جریانهای نقدی آینده را از خود نشان دادند:
- Claude Fable 5: بهترین عملکرد با رسیدن به رقم خیرهکننده ۴۷.۱۵ میلیون دلار و نشان دادن بیشترین ثبات در چندین دور اجرا.
- Claude Opus 4.8: با دستیابی به ۲۷.۸ میلیون دلار، با ساخت شبیهسازی داخلی خود برای مدلسازی گروههای مشتری (customer cohorts)، پیچیدگی سطح بالایی را نشان داد.
- GPT-5.5: با رسیدن به ۲۱.۳ میلیون دلار، از طریق تحلیل تاریخچه مذاکرات برای کشف ترجیحات پنهان مشتریان موفق شد.
جالب اینجاست که مدلها از مسیرهای متفاوتی برای رسیدن به موفقیت استفاده کردند. در حالی که Opus 4.8 بر جذب تهاجمی مشتری در مراحل اولیه تمرکز داشت، GPT-5.5 حفظ پایگاه مشتری ثابت را در اولویت قرار داد. در مقابل، مدلهایی مانند Claude Opus 4.7 ذهنیت «بقامحور» داشتند و صرفاً برای جلوگیری از ورشکستگی به کاهش هزینهها پرداختند، بدون اینکه هرگز سود قابل توجهی ایجاد کنند.
چرا این موضوع برای آینده هوش مصنوعی اهمیت دارد
شکاف بین بهترین عوامل ($۴۷.۱۵ میلیون) و حد بالای تئوریک شبیهسازی ($۲.۲ میلیارد) نشان میدهد که «هوش هدایتگر» هوش مصنوعی هنوز در مراحل اولیه خود است. برای توسعهدهندگان و بنیانگذاران، این بنچمارک برجسته میکند که مرز بعدی هوش مصنوعی تنها استدلال بهتر نیست، بلکه آگاهی زمانی (temporal awareness) بهتر است — یعنی توانایی مدیریت منابع و انتظارات در دورههای طولانی و نامطمئن.
نکات کلیدی
- شکاف استراتژیک: اکثر مدلهای فعلی هوش مصنوعی فاقد «هوش هدایتگر» برای مدیریت چرخههای تجاری بلندمدت هستند و اکثریت در آزمون بقای ۵۰۰ روزه شکست میخورند.
- برترینها: تنها Claude Fable 5، Claude Opus 4.8 و GPT-5.5 موفق شدند سرمایه شرکت را به بیش از ۱ میلیون دلار اولیه افزایش دهند.
- بنچمارک اکتشافی: یک الگوریتم ساده و غیر هوش مصنوعی مبتنی بر قانون، تقریباً از تمام LLMها بهتر عمل کرد که نشان میدهد ثبات استراتژیک حیاتیتر از قدرت پردازش خام است.
