केवल तीन AI मॉडल ही 500-दिवसीय स्टार्टअप सिमुलेशन में जीवित बचे
वर्तमान AI एजेंट विशिष्ट कार्यों (discrete tasks) में उत्कृष्ट हैं, लेकिन उन्हें व्यवसाय चलाने के लिए आवश्यक जटिल, दीर्घकालिक रणनीतिक सोच (long-horizon strategic thinking) के साथ संघर्ष करना पड़ता है। CEO-Bench नामक एक नया बेंचमार्क बताता है कि जहाँ अधिकांश लार्ज लैंग्वेज मॉडल्स (LLMs) 500 सिम्युलेटेड दिनों के भीतर दिवालिया हो जाते हैं, वहीं कुछ चुनिंदा मॉडल "स्टीयरिंग इंटेलिजेंस" (steering intelligence) के संकेत दिखाने लगे हैं।
CEO-Bench का परिचय: रणनीतिक बुद्धिमत्ता की अंतिम परीक्षा
शोधकर्ताओं ने साधारण प्रॉम्प्टिंग टेस्ट से आगे बढ़कर CEO-Bench विकसित किया है, जो एक कठोर सिमुलेशन है। इसे किसी एजेंट की पूरी संस्था को दीर्घकालिक लक्ष्यों की ओर ले जाने की क्षमता को मापने के लिए डिज़ाइन किया गया है। इस बेंचमार्क में, एक AI एजेंट "NovaMind" नामक एक काल्पनिक सब्सक्रिप्शन सॉफ्टवेयर कंपनी का नियंत्रण लेता है, जिसकी शुरुआत $1 मिलियन की पूंजी और शून्य ग्राहकों के साथ होती है।
इस वातावरण को वास्तविक दुनिया की अस्थिरता की नकल करने के लिए डिज़ाइन किया गया है। एजेंट 34 टूल्स वाले Python API और 19-टेबल डेटाबेस के साथ इंटरैक्ट करते हैं, जिसके लिए उन्हें निर्णय लेने हेतु कस्टम कोड और SQL क्वेरी लिखनी पड़ती है। दांव बहुत ऊंचे हैं: यदि 500 दिनों की अवधि के दौरान किसी भी बिंदु पर कंपनी का कैश बैलेंस शून्य से नीचे गिर जाता है, तो सिमुलेशन दिवालियापन के साथ समाप्त हो जाता है।
जटिलता विलंबित फीडबैक लूप (delayed feedback loops) से उत्पन्न होती है। कार्य-उन्मुख (task-oriented) एजेंटों के विपरीत, एक CEO को R&D टाइमलाइन, मार्केट साइकिल और ग्राहकों की बदलती अपेक्षाओं के बीच तालमेल बिठाना पड़ता है। 10वें दिन लिए गए निर्णय—जैसे विज्ञापन खर्च या प्राइसिंग टियर—का सब्सक्राइबर ग्रोथ या कैश फ्लो में दृश्य परिणाम हफ्तों बाद तक नहीं मिल सकता है।
दिवालियापन का संकट: अधिकांश मॉडल क्यों विफल होते हैं
14 मॉडलों के परीक्षण के परिणाम चौंकाने वाले थे। हालाँकि अधिकांश मॉडल बुनियादी कमांड निष्पादित कर सकते थे, लेकिन उनमें दिवालिया न होने (solvent रहने) के लिए आवश्यक सुसंगत दीर्घकालिक रणनीति की कमी थी। अधिकांश एजेंट बाजार की अनिश्चितता का सामना करने में विफल रहे और 500 दिनों की अवधि पूरी होने से पहले ही दिवालिया हो गए।
एक आश्चर्यजनक तुलना में, एक सरल नियम-आधारित ह्यूरिस्टिक (rule-based heuristic)—जो फिक्स्ड प्राइसिंग और बुनियादी क्षमता समायोजन का उपयोग करने वाला एक गैर-AI प्रोग्राम है—$15.76 मिलियन तक पहुँच गया। इसने लगभग हर परीक्षण किए गए LLM को पीछे छोड़ दिया, जिससे यह साबित हो गया कि बिना दिशा के "बुद्धिमत्ता" अक्सर एक बुनियादी, अनुशासित व्यावसायिक योजना से कमतर होती है।
शीर्ष तीन: Claude और GPT सबसे आगे
केवल तीन मॉडल ही अपनी रन को शुरुआती $1 मिलियन की पूंजी से अधिक के साथ समाप्त करने में सफल रहे। इन मॉडलों ने छिपी हुई जानकारी को उजागर करने और भविष्य के कैश फ्लो का अनुमान लगाने की क्षमता का प्रदर्शन किया:
- Claude Fable 5: शीर्ष प्रदर्शन करने वाला मॉडल, जो $47.15 मिलियन के चौंकाने वाले आंकड़े तक पहुँचा और कई रन में सबसे अधिक निरंतरता दिखाई।
- Claude Opus 4.8: $27.8 मिलियन प्राप्त किया, जिसने कस्टमर कोहोर्ट्स (customer cohorts) को मॉडल करने के लिए अपना आंतरिक सिमुलेशन बनाकर उच्च-स्तरीय परिष्कार (sophistication) का प्रदर्शन किया।
- GPT-5.5: $21.3 मिलियन तक पहुँचा, जिसने छिपी हुई ग्राहक प्राथमिकताओं को उजागर करने के लिए बातचीत के इतिहास (negotiation histories) का विश्लेषण करके सफलता प्राप्त की।
दिलचस्प बात यह है कि मॉडलों ने सफलता के लिए अलग-अलग रास्ते अपनाए। जहाँ Opus 4.8 ने आक्रामक शुरुआती ग्राहक अधिग्रहण (customer acquisition) पर ध्यान केंद्रित किया, वहीं GPT-5.5 ने एक स्थिर ग्राहक आधार बनाए रखने को प्राथमिकता दी। इसके विपरीत, Claude Opus 4.7 जैसे मॉडलों ने "सर्वाइवलिस्ट" (survivalist) मानसिकता अपनाई, जो बिना किसी महत्वपूर्ण लाभ के केवल दिवालिया होने से बचने के लिए लागत में कटौती करते रहे।
यह AI के भविष्य के लिए क्यों महत्वपूर्ण है
सर्वश्रेष्ठ प्रदर्शन करने वाले एजेंटों ($47.15M) और सिमुलेशन की सैद्धांतिक ऊपरी सीमा ($2.2B) के बीच का अंतर बताता है कि AI "स्टीयरिंग इंटेलिजेंस" अभी अपने शुरुआती चरण में है। डेवलपर्स और संस्थापकों के लिए, यह बेंचमार्क इस बात पर प्रकाश डालता है कि AI की अगली सीमा केवल बेहतर तर्क (reasoning) नहीं है, बल्कि बेहतर टेम्पोरल अवेयरनेस (temporal awareness) है—यानी लंबी, अनिश्चित अवधि के दौरान संसाधनों और अपेक्षाओं को प्रबंधित करने की क्षमता।
मुख्य बातें
- रणनीतिक अंतर (Strategic Gap): अधिकांश वर्तमान AI मॉडलों में दीर्घकालिक व्यावसायिक चक्रों को प्रबंधित करने के लिए "स्टीयरिंग इंटेलिजेंस" की कमी है, जिनमें से अधिकांश 500-दिवसीय उत्तरजीविता परीक्षण में विफल रहे।
- शीर्ष प्रदर्शनकर्ता: केवल Claude Fable 5, Claude Opus 4.8, और GPT-5.5 ही कंपनी की पूंजी को शुरुआती $1 मिलियन से अधिक बढ़ाने में सफल रहे।
- ह्यूरिस्टिक बेंचमार्क: एक सरल, गैर-AI नियम-आधारित एल्गोरिदम ने लगभग सभी LLMs को पीछे छोड़ दिया, जो इस बात पर जोर देता है कि रणनीतिक निरंतरता कच्चे प्रोसेसिंग पावर (raw processing power) की तुलना में अधिक महत्वपूर्ण है।
