५०० दिवसांच्या स्टार्टअप सिम्युलेशनमध्ये फक्त तीन AI मॉडेल्स टिकले

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial६ दिवसांपूर्वी3min read

५०० दिवसांच्या स्टार्टअप सिम्युलेशनमध्ये फक्त तीन AI मॉडेल्स टिकले

In this article

केवळ तीन AI मॉडेल्स ५०० दिवसांच्या स्टार्टअप सिम्युलेशनमध्ये टिकून राहिल्या

सध्याचे AI एजंट्स विशिष्ट कामांमध्ये (discrete tasks) उत्कृष्ट आहेत, परंतु व्यवसाय चालवण्यासाठी आवश्यक असलेल्या जटिल आणि दीर्घकालीन धोरणात्मक विचारांमध्ये (long-horizon strategic thinking) त्यांना अडचणी येतात. CEO-Bench नावाचा एक नवीन बेंचमार्क असे दर्शवतो की, बहुतेक लार्ज लँग्वेज मॉडेल्स (LLMs) ५०० सिम्युलेटेड दिवसांच्या आत दिवाळखोर होतात, तर काही मोजकी मॉडेल्स "स्टीअरिंग इंटेलिजन्स" (steering intelligence) ची लक्षणे दाखवू लागली आहेत.

CEO-Bench ची ओळख: धोरणात्मक बुद्धिमत्तेची अंतिम परीक्षा

संशोधकांनी साध्या प्रॉम्प्टिंग चाचण्यांच्या पलीकडे जाऊन CEO-Bench विकसित केले आहे. हे एक कठोर सिम्युलेशन आहे जे संपूर्ण संस्थेला दीर्घकालीन उद्दिष्टांकडे नेण्याची एजंटची क्षमता मोजण्यासाठी डिझाइन केलेले आहे. या बेंचमार्कमध्ये, एक AI एजंट "NovaMind" नावाच्या एका काल्पनिक सबस्क्रिप्शन सॉफ्टवेअर कंपनीचा ताबा घेतो, ज्याची सुरुवात $1 दशलक्ष भांडवल आणि शून्य ग्राहकांपासून होते.

हे वातावरण वास्तविक जगातील अस्थिरतेची प्रतिकृती तयार करण्यासाठी डिझाइन केलेले आहे. एजंट्स ३४ टूल्स आणि १९-टेबल डेटाबेस असलेल्या Python API सोबत संवाद साधतात, ज्यासाठी त्यांना निर्णय घेण्यासाठी कस्टम कोड आणि SQL क्वेरीज लिहाव्या लागतात. यात जोखीम मोठी आहे: जर ५०० दिवसांच्या कालावधीत कोणत्याही वेळी कंपनीचा रोखता (cash balance) शून्याखाली गेला, तर सिम्युलेशन दिवाळखोरीत संपते.

याची जटिलता 'डिलेड फीडबॅक लूप्स'मुळे (delayed feedback loops) निर्माण होते. केवळ विशिष्ट कामांवर लक्ष केंद्रित करणाऱ्या एजंट्सच्या उलट, एका CEO ला R&D वेळापत्रक, मार्केट सायकल आणि ग्राहकांच्या बदलत्या अपेक्षा हाताळाव्या लागतात. १० व्या दिवशी घेतलेले निर्णय—जसे की जाहिरातींवरील खर्च किंवा किंमतीचे स्तर (pricing tiers)—त्यांचे दृश्य परिणाम सबस्क्राइबर्सची वाढ किंवा कॅश फ्लोमध्ये काही आठवड्यांनंतरच दिसून येतात.

दिवाळखोरीचे संकट: बहुतेक मॉडेल्स का अपयशी ठरतात

१४ मॉडेल्सच्या चाचणीचे निकाल धक्कादायक होते. जरी बहुतेक मॉडेल्स मूलभूत कमांड्स कार्यान्वित करू शकत होते, तरीही आर्थिक स्थैर्य राखण्यासाठी आवश्यक असलेली सुसंगत दीर्घकालीन रणनीती त्यांच्याकडे नव्हती. बहुतांश एजंट्स बाजारातील अनिश्चितता हाताळण्यात अपयशी ठरले आणि ५०० दिवसांच्या मर्यादेपूर्वीच दिवाळखोर झाले.

एका लक्षणीय तुलनेत, एक साधा 'रुल-बेस्ड ह्यूरिस्टिक' (rule-based heuristic)—जो एक नॉन-AI प्रोग्राम असून निश्चित किंमत आणि मूलभूत क्षमता समायोजन वापरतो—त्याने $15.76 दशलक्ष कमावले. हे जवळजवळ प्रत्येक चाचणी घेतलेल्या LLM पेक्षा सरस ठरले, ज्यावरून हे सिद्ध होते की दिशा नसलेली "बुद्धिमत्ता" अनेकदा एका साध्या आणि शिस्तबद्ध व्यवसाय योजनेपेक्षा कमी प्रभावी ठरते.

अव्वल तीन: Claude आणि GPT आघाडीवर

केवळ तीन मॉडेल्स त्यांच्या रनच्या शेवटी सुरुवातीच्या $1 दशलक्ष भांडवलापेक्षा जास्त रक्कम मिळवण्यात यशस्वी झाली. या मॉडेल्सनी लपलेली माहिती शोधण्याची आणि भविष्यातील कॅश फ्लोचा अंदाज लावण्याची क्षमता प्रदर्शित केली:

Claude Fable 5: सर्वोत्तम कामगिरी करणारे मॉडेल, ज्याने तब्बल $47.15 दशलक्ष कमावले आणि अनेक रनमध्ये सर्वाधिक सुसंगतता दाखवली.
Claude Opus 4.8: $27.8 दशलक्ष मिळवले, आणि कस्टमर कोहोर्ट्सचे (customer cohorts) मॉडेलिंग करण्यासाठी स्वतःचे अंतर्गत सिम्युलेशन तयार करून उच्च-स्तरीय प्रगल्भता प्रदर्शित केली.
GPT-5.5: $21.3 दशलक्षपर्यंत पोहोचले, आणि ग्राहकांच्या लपलेल्या आवडीनिवडी शोधण्यासाठी वाटाघाटींचा इतिहास (negotiation histories) विश्लेषित करून यश मिळवले.

मनोरंजक म्हणजे, या मॉडेल्सनी यशासाठी वेगवेगळे मार्ग अवलंबले. Opus 4.8 ने सुरुवातीच्या काळात आक्रमकपणे ग्राहक मिळवण्यावर लक्ष केंद्रित केले, तर GPT-5.5 ने स्थिर ग्राहक आधार राखण्याला प्राधान्य दिले. याउलट, Claude Opus 4.7 सारख्या मॉडेल्सनी "सर्व्हायव्हलिस्ट" (survivalist) मानसिकता स्वीकारली, ज्यामध्ये त्यांनी कोणताही मोठा नफा मिळवण्याऐवजी केवळ दिवाळखोरी टाळण्यासाठी खर्च कमी करण्यावर भर दिला.

AI च्या भविष्यासाठी हे का महत्त्वाचे आहे

सर्वोत्तम कामगिरी करणारे एजंट्स ($47.15M) आणि सिम्युलेशनची सैद्धांतिक कमाल मर्यादा ($2.2B) यातील तफावत असे सूचित करते की AI "स्टीअरिंग इंटेलिजन्स" अजूनही सुरुवातीच्या टप्प्यात आहे. डेव्हलपर्स आणि संस्थापकांसाठी, हा बेंचमार्क हे अधोरेखित करतो की AI ची पुढची सीमा केवळ उत्तम तर्कशक्ती (reasoning) नाही, तर उत्तम 'टेम्पोरल अवेअरनेस' (temporal awareness) आहे—म्हणजेच दीर्घ आणि अनिश्चित कालावधीत संसाधने आणि अपेक्षांचे व्यवस्थापन करण्याची क्षमता.

मुख्य निष्कर्ष

धोरणात्मक तफावत (Strategic Gap): सध्याच्या बहुतेक AI मॉडेल्समध्ये दीर्घकालीन व्यावसायिक चक्रांचे व्यवस्थापन करण्यासाठी आवश्यक असलेली "स्टीअरिंग इंटेलिजन्स" नाही, ज्यामुळे बहुतांश मॉडेल्स ५०० दिवसांच्या अस्तित्व चाचणीत अपयशी ठरतात.
अव्वल कामगिरी करणारे: केवळ Claude Fable 5, Claude Opus 4.8 आणि GPT-5.5 ही मॉडेल्स कंपनीचे भांडवल सुरुवातीच्या $1 दशलक्षपेक्षा वाढवण्यात यशस्वी झाली.
ह्यूरिस्टिक बेंचमार्क: एक साधा, नॉन-AI रुल-बेस्ड अल्गोरिदम जवळजवळ सर्व LLMs पेक्षा सरस ठरला, ज्यावरून हे स्पष्ट होते की केवळ प्रोसेसिंग पॉवरपेक्षा धोरणात्मक सुसंगतता अधिक महत्त्वाची आहे.

५०० दिवसांच्या स्टार्टअप सिम्युलेशनमध्ये फक्त तीन AI मॉडेल्स टिकले

केवळ तीन AI मॉडेल्स ५०० दिवसांच्या स्टार्टअप सिम्युलेशनमध्ये टिकून राहिल्या

CEO-Bench ची ओळख: धोरणात्मक बुद्धिमत्तेची अंतिम परीक्षा

दिवाळखोरीचे संकट: बहुतेक मॉडेल्स का अपयशी ठरतात

अव्वल तीन: Claude आणि GPT आघाडीवर

AI च्या भविष्यासाठी हे का महत्त्वाचे आहे

मुख्य निष्कर्ष

Continue reading

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

Snowflake CEO: अत्यंत कमी खर्चात GLM 5.2 ने Claude Opus 4.7 ला दिली टक्कर

नवीन MirrorCode बेंचमार्कमध्ये AI मॉडेल्स सलग १९ दिवस चालतात

मानक AI बेंचमार्क पद्धतशीरपणे एजंटची क्षमता कमी का लेखतात?