માત્ર ત્રણ AI મોડલ્સ જ 500-દિવસના સ્ટાર્ટઅપ સિમ્યુલેશનમાં ટકી શક્યા

વર્તમાન AI એજન્ટ્સ ચોક્કસ કાર્યોમાં નિપુણ છે, પરંતુ વ્યવસાય ચલાવવા માટે જરૂરી જટિલ અને લાંબા ગાળાના વ્યૂહાત્મક વિચાર પ્રક્રિયામાં તેઓ સંઘર્ષ કરે છે. CEO-Bench નામનું એક નવું બેન્ચમાર્ક દર્શાવે છે કે જ્યારે મોટાભાગના લાર્જ લેંગ્વેજ મોડલ્સ (LLMs) 500 સિમ્યુલેટેડ દિવસોમાં દેવાળું ફૂંકી દે છે, ત્યારે પસંદગીના થોડા મોડલ્સ "સ્ટીયરિંગ ઇન્ટેલિજન્સ" (steering intelligence) ના સંકેતો બતાવવાનું શરૂ કરી રહ્યા છે.

CEO-Bench નો પરિચય: વ્યૂહાત્મક બુદ્ધિની અંતિમ કસોટી

સંશોધકોએ સાદા પ્રોમ્પ્ટિંગ ટેસ્ટથી આગળ વધીને CEO-Bench વિકસાવ્યું છે, જે એક એજન્ટની આખી સંસ્થાને લાંબા ગાળાના લક્ષ્યો તરફ દોરી જવાની ક્ષમતા માપવા માટે રચાયેલ એક કડક સિમ્યુલેશન છે. આ બેન્ચમાર્ક પર, એક AI એજન્ટ "NovaMind" નામની એક કાલ્પનિક સબ્સ્ક્રિપ્શન સોફ્ટવેર કંપનીનો નિયંત્રણ સંભાળે છે, જે $1 મિલિયન મૂડી અને શૂન્ય ગ્રાહકો સાથે શરૂ થાય છે.

આ વાતાવરણ વાસ્તવિક દુનિયાની અસ્થિરતાની નકલ કરવા માટે બનાવવામાં આવ્યું છે. એજન્ટ્સ 34 ટૂલ્સ ધરાવતા Python API અને 19-ટેબલ ડેટાબેઝ સાથે સંપર્ક કરે છે, જેના માટે તેમને નિર્ણયો લેવા માટે કસ્ટમ કોડ અને SQL ક્વેરીઝ લખવી પડે છે. જોખમ ઘણું વધારે છે: જો 500 દિવસના સમયગાળા દરમિયાન કોઈપણ સમયે કંપનીનું રોકડ બેલેન્સ શૂન્યથી નીચે જાય, તો સિમ્યુલેશન દેવાળા સાથે સમાપ્ત થાય છે.

જટિલતા વિલંબિત ફીડબેક લૂપ્સ (delayed feedback loops) માંથી ઉદભવે છે. કાર્ય-લક્ષી એજન્ટોથી વિપરીત, એક CEO એ R&D સમયરેખા, માર્કેટ સાયકલ અને બદલાતી ગ્રાહક અપેક્ષાઓ વચ્ચે રસ્તો શોધવો પડે છે. 10મા દિવસે લેવામાં આવેલા નિર્ણયો—જેમ કે જાહેરાત ખર્ચ અથવા પ્રાઇસિંગ સ્તર—તેના સબ્સ્ક્રાઇબર વૃદ્ધિ અથવા કેશ ફ્લોમાં અદ્રશ્ય પરિણામો કદાચ અઠવાડિયા પછી જ જોવા મળે.

દેવાળું ફૂંકવાની કટોકટી: મોટાભાગના મોડલ્સ કેમ નિષ્ફળ જાય છે

14-મોડલના પરીક્ષણના પરિણામો ગંભીર હતા. જોકે મોટાભાગના મોડલ્સ મૂળભૂત કમાન્ડ્સ અમલમાં મૂકી શકતા હતા, પરંતુ તેમની પાસે દેવામુક્ત રહેવા માટે જરૂરી સુસંગત લાંબા ગાળાની વ્યૂહરચનાનો અભાવ હતો. મોટાભાગના એજન્ટો બજારની અનિશ્ચિતતાને પાર કરવામાં નિષ્ફળ ગયા અને 500 દિવસ પૂરા થાય તે પહેલાં જ દેવાળું ફૂંકી દીધું.

એક આશ્ચર્યજનક સરખામણીમાં, એક સાદું રૂલ-બેઝ્ડ હ્યુરિસ્ટિક (rule-based heuristic)—જે ફિક્સ્ડ પ્રાઇસિંગ અને મૂળભૂત ક્ષમતા એડજસ્ટમેન્ટનો ઉપયોગ કરતો નોન-AI પ્રોગ્રામ છે—તે $15.76 મિલિયન સુધી પહોંચ્યો. આ લગભગ દરેક પરીક્ષિત LLM કરતા વધુ સારું પ્રદર્શન કરતું હતું, જે સાબિત કરે છે કે દિશા વિનાની "બુદ્ધિ" ઘણીવાર મૂળભૂત અને શિસ્તબદ્ધ બિઝનેસ પ્લાન કરતા નબળી હોય છે.

શ્રેષ્ઠ ત્રણ: Claude અને GPT મોખરે

માત્ર ત્રણ મોડલ્સ જ તેમની શરૂઆતની $1 મિલિયન મૂડી કરતાં વધુ સાથે રન પૂર્ણ કરવામાં સફળ રહ્યા. આ મોડલ્સે છુપાયેલી માહિતી શોધવાની અને ભવિષ્યના કેશ ફ્લોની આગાહી કરવાની ક્ષમતા દર્શાવી:

  • Claude Fable 5: સર્વશ્રેષ્ઠ પ્રદર્શન કરનાર, જે $47.15 મિલિયનના આશ્ચર્યજનક આંકડા સુધી પહોંચ્યો અને અનેક રન દરમિયાન સૌથી વધુ સાતત્ય દર્શાવ્યો.
  • Claude Opus 4.8: $27.8 મિલિયન હાંસલ કર્યા, ગ્રાહક કોહોર્ટ્સ (customer cohorts) મોડેલ કરવા માટે પોતાનું આંતરિક સિમ્યુલેશન બનાવીને ઉચ્ચ સ્તરની કુશળતા દર્શાવી.
  • GPT-5.5: $21.3 મિલિયન સુધી પહોંચ્યો, છુપાયેલી ગ્રાહક પસંદગીઓને શોધવા માટે નેગોશિયેશન હિસ્ટ્રીનું વિશ્લેષણ કરીને સફળતા મેળવી.

રસપ્રદ વાત એ છે કે, મોડલ્સે સફળતા માટે અલગ-અલગ માર્ગો અપનાવ્યા હતા. જ્યારે Opus 4.8 એ શરૂઆતના તબક્કે આક્રમક રીતે ગ્રાહકો મેળવવા પર ધ્યાન કેન્દ્રિત કર્યું, ત્યારે GPT-5.5 એ સ્થિર ગ્રાહક આધાર જાળવી રાખવાને પ્રાથમિકતા આપી. તેનાથી વિપરીત, Claude Opus 4.7 જેવા મોડલ્સે "સર્વાઈવલિસ્ટ" (survivalist) માનસિકતા અપનાવી હતી, જેઓ નોંધપાત્ર નફો મેળવ્યા વિના માત્ર દેવાળું ટાળવા માટે ખર્ચમાં કાપ મૂકતા હતા.

AI ના ભવિષ્ય માટે આ શા માટે મહત્વનું છે

શ્રેષ્ઠ પ્રદર્શન કરતા એજન્ટ્સ ($47.15M) અને સિમ્યુલેશનની સૈદ્ધાંતિક ઉપલી મર્યાદા ($2.2B) વચ્ચેનો તફાવત સૂચવે છે કે AI "સ્ટીયરિંગ ઇન્ટેલિજન્સ" હજુ તેના પ્રારંભિક તબક્કામાં છે. ડેવલપર્સ અને ફાઉન્ડર્સ માટે, આ બેન્ચમાર્ક એ વાત પર ભાર મૂકે છે કે AI ની આગામી સીમા માત્ર વધુ સારું તર્ક (reasoning) નથી, પરંતુ વધુ સારી ટેમ્પોરલ અવેરનેસ (temporal awareness) છે—એટલે કે લાંબા, અનિશ્ચિત સમયગાળા દરમિયાન સંસાધનો અને અપેક્ષાઓનું સંચાલન કરવાની ક્ષમતા.

મુખ્ય તારણો

  • વ્યૂહાત્મક તફાવત: મોટાભાગના વર્તમાન AI મોડલ્સમાં લાંબા ગાળાના બિઝનેસ સાયકલનું સંચાલન કરવા માટે "સ્ટીયરિંગ ઇન્ટેલિજન્સ"નો અભાવ છે, જેમાં મોટાભાગના મોડલ્સ 500-દિવસના સર્વાઈવલ ટેસ્ટમાં નિષ્ફળ જાય છે.
  • શ્રેષ્ઠ પ્રદર્શન કરનારા: માત્ર Claude Fable 5, Claude Opus 4.8, અને GPT-5.5 જ કંપનીની મૂડીને શરૂઆતની $1 મિલિયનથી વધુ વધારવામાં સફળ રહ્યા.
  • હ્યુરિસ્ટિક બેન્ચમાર્ક: એક સાદું, નોન-AI રૂલ-બેઝ્ડ અલ્ગોરિધમ લગભગ તમામ LLMs કરતા વધુ સારું પ્રદર્શન કરતું હતું, જે એ વાત પર ભાર મૂકે છે કે કાચી પ્રોસેસિંગ પાવર કરતા વ્યૂહાત્મક સાતત્ય વધુ મહત્વપૂર્ણ છે.