केवळ तीन AI मॉडेल्स ५०० दिवसांच्या स्टार्टअप सिम्युलेशनमध्ये टिकून राहिल्या
सध्याचे AI एजंट्स विशिष्ट कामांमध्ये (discrete tasks) उत्कृष्ट आहेत, परंतु व्यवसाय चालवण्यासाठी आवश्यक असलेल्या जटिल आणि दीर्घकालीन धोरणात्मक विचारांमध्ये (long-horizon strategic thinking) त्यांना अडचणी येतात. CEO-Bench नावाचा एक नवीन बेंचमार्क असे दर्शवतो की, बहुतेक लार्ज लँग्वेज मॉडेल्स (LLMs) ५०० सिम्युलेटेड दिवसांच्या आत दिवाळखोर होतात, तर काही मोजकी मॉडेल्स "स्टीअरिंग इंटेलिजन्स" (steering intelligence) ची लक्षणे दाखवू लागली आहेत.
CEO-Bench ची ओळख: धोरणात्मक बुद्धिमत्तेची अंतिम परीक्षा
संशोधकांनी साध्या प्रॉम्प्टिंग चाचण्यांच्या पलीकडे जाऊन CEO-Bench विकसित केले आहे. हे एक कठोर सिम्युलेशन आहे जे संपूर्ण संस्थेला दीर्घकालीन उद्दिष्टांकडे नेण्याची एजंटची क्षमता मोजण्यासाठी डिझाइन केलेले आहे. या बेंचमार्कमध्ये, एक AI एजंट "NovaMind" नावाच्या एका काल्पनिक सबस्क्रिप्शन सॉफ्टवेअर कंपनीचा ताबा घेतो, ज्याची सुरुवात $1 दशलक्ष भांडवल आणि शून्य ग्राहकांपासून होते.
हे वातावरण वास्तविक जगातील अस्थिरतेची प्रतिकृती तयार करण्यासाठी डिझाइन केलेले आहे. एजंट्स ३४ टूल्स आणि १९-टेबल डेटाबेस असलेल्या Python API सोबत संवाद साधतात, ज्यासाठी त्यांना निर्णय घेण्यासाठी कस्टम कोड आणि SQL क्वेरीज लिहाव्या लागतात. यात जोखीम मोठी आहे: जर ५०० दिवसांच्या कालावधीत कोणत्याही वेळी कंपनीचा रोखता (cash balance) शून्याखाली गेला, तर सिम्युलेशन दिवाळखोरीत संपते.
याची जटिलता 'डिलेड फीडबॅक लूप्स'मुळे (delayed feedback loops) निर्माण होते. केवळ विशिष्ट कामांवर लक्ष केंद्रित करणाऱ्या एजंट्सच्या उलट, एका CEO ला R&D वेळापत्रक, मार्केट सायकल आणि ग्राहकांच्या बदलत्या अपेक्षा हाताळाव्या लागतात. १० व्या दिवशी घेतलेले निर्णय—जसे की जाहिरातींवरील खर्च किंवा किंमतीचे स्तर (pricing tiers)—त्यांचे दृश्य परिणाम सबस्क्राइबर्सची वाढ किंवा कॅश फ्लोमध्ये काही आठवड्यांनंतरच दिसून येतात.
दिवाळखोरीचे संकट: बहुतेक मॉडेल्स का अपयशी ठरतात
१४ मॉडेल्सच्या चाचणीचे निकाल धक्कादायक होते. जरी बहुतेक मॉडेल्स मूलभूत कमांड्स कार्यान्वित करू शकत होते, तरीही आर्थिक स्थैर्य राखण्यासाठी आवश्यक असलेली सुसंगत दीर्घकालीन रणनीती त्यांच्याकडे नव्हती. बहुतांश एजंट्स बाजारातील अनिश्चितता हाताळण्यात अपयशी ठरले आणि ५०० दिवसांच्या मर्यादेपूर्वीच दिवाळखोर झाले.
एका लक्षणीय तुलनेत, एक साधा 'रुल-बेस्ड ह्यूरिस्टिक' (rule-based heuristic)—जो एक नॉन-AI प्रोग्राम असून निश्चित किंमत आणि मूलभूत क्षमता समायोजन वापरतो—त्याने $15.76 दशलक्ष कमावले. हे जवळजवळ प्रत्येक चाचणी घेतलेल्या LLM पेक्षा सरस ठरले, ज्यावरून हे सिद्ध होते की दिशा नसलेली "बुद्धिमत्ता" अनेकदा एका साध्या आणि शिस्तबद्ध व्यवसाय योजनेपेक्षा कमी प्रभावी ठरते.
अव्वल तीन: Claude आणि GPT आघाडीवर
केवळ तीन मॉडेल्स त्यांच्या रनच्या शेवटी सुरुवातीच्या $1 दशलक्ष भांडवलापेक्षा जास्त रक्कम मिळवण्यात यशस्वी झाली. या मॉडेल्सनी लपलेली माहिती शोधण्याची आणि भविष्यातील कॅश फ्लोचा अंदाज लावण्याची क्षमता प्रदर्शित केली:
- Claude Fable 5: सर्वोत्तम कामगिरी करणारे मॉडेल, ज्याने तब्बल $47.15 दशलक्ष कमावले आणि अनेक रनमध्ये सर्वाधिक सुसंगतता दाखवली.
- Claude Opus 4.8: $27.8 दशलक्ष मिळवले, आणि कस्टमर कोहोर्ट्सचे (customer cohorts) मॉडेलिंग करण्यासाठी स्वतःचे अंतर्गत सिम्युलेशन तयार करून उच्च-स्तरीय प्रगल्भता प्रदर्शित केली.
- GPT-5.5: $21.3 दशलक्षपर्यंत पोहोचले, आणि ग्राहकांच्या लपलेल्या आवडीनिवडी शोधण्यासाठी वाटाघाटींचा इतिहास (negotiation histories) विश्लेषित करून यश मिळवले.
मनोरंजक म्हणजे, या मॉडेल्सनी यशासाठी वेगवेगळे मार्ग अवलंबले. Opus 4.8 ने सुरुवातीच्या काळात आक्रमकपणे ग्राहक मिळवण्यावर लक्ष केंद्रित केले, तर GPT-5.5 ने स्थिर ग्राहक आधार राखण्याला प्राधान्य दिले. याउलट, Claude Opus 4.7 सारख्या मॉडेल्सनी "सर्व्हायव्हलिस्ट" (survivalist) मानसिकता स्वीकारली, ज्यामध्ये त्यांनी कोणताही मोठा नफा मिळवण्याऐवजी केवळ दिवाळखोरी टाळण्यासाठी खर्च कमी करण्यावर भर दिला.
AI च्या भविष्यासाठी हे का महत्त्वाचे आहे
सर्वोत्तम कामगिरी करणारे एजंट्स ($47.15M) आणि सिम्युलेशनची सैद्धांतिक कमाल मर्यादा ($2.2B) यातील तफावत असे सूचित करते की AI "स्टीअरिंग इंटेलिजन्स" अजूनही सुरुवातीच्या टप्प्यात आहे. डेव्हलपर्स आणि संस्थापकांसाठी, हा बेंचमार्क हे अधोरेखित करतो की AI ची पुढची सीमा केवळ उत्तम तर्कशक्ती (reasoning) नाही, तर उत्तम 'टेम्पोरल अवेअरनेस' (temporal awareness) आहे—म्हणजेच दीर्घ आणि अनिश्चित कालावधीत संसाधने आणि अपेक्षांचे व्यवस्थापन करण्याची क्षमता.
मुख्य निष्कर्ष
- धोरणात्मक तफावत (Strategic Gap): सध्याच्या बहुतेक AI मॉडेल्समध्ये दीर्घकालीन व्यावसायिक चक्रांचे व्यवस्थापन करण्यासाठी आवश्यक असलेली "स्टीअरिंग इंटेलिजन्स" नाही, ज्यामुळे बहुतांश मॉडेल्स ५०० दिवसांच्या अस्तित्व चाचणीत अपयशी ठरतात.
- अव्वल कामगिरी करणारे: केवळ Claude Fable 5, Claude Opus 4.8 आणि GPT-5.5 ही मॉडेल्स कंपनीचे भांडवल सुरुवातीच्या $1 दशलक्षपेक्षा वाढवण्यात यशस्वी झाली.
- ह्यूरिस्टिक बेंचमार्क: एक साधा, नॉन-AI रुल-बेस्ड अल्गोरिदम जवळजवळ सर्व LLMs पेक्षा सरस ठरला, ज्यावरून हे स्पष्ट होते की केवळ प्रोसेसिंग पॉवरपेक्षा धोरणात्मक सुसंगतता अधिक महत्त्वाची आहे.
