500 நாள் ஸ்டார்ட்அப் உருவகப்படுத்துதலில் (Simulation) மூன்று AI மாதிரிகள் மட்டுமே உயிர் பிழைத்தன
தற்போதைய AI ஏஜெண்டுகள் தனித்தனி பணிகளில் சிறந்து விளங்குகின்றன, ஆனால் ஒரு வணிகத்தை நடத்துவதற்குத் தேவையான சிக்கலான, நீண்ட கால மூலோபாயச் சிந்தனையில் (strategic thinking) அவை தடுமாறுகின்றன. CEO-Bench எனப்படும் புதிய பெஞ்ச்மார்க், பெரும்பாலான பெரிய மொழி மாதிரிகள் (LLMs) 500 உருவகப்படுத்தப்பட்ட நாட்களுக்குள் திவாலாகிவிடுகின்றன என்பதையும், தேர்ந்தெடுக்கப்பட்ட சில மாதிரிகள் மட்டுமே "வழிநடத்தும் நுண்ணறிவை" (steering intelligence) வெளிப்படுத்தத் தொடங்கியுள்ளன என்பதையும் வெளிப்படுத்துகிறது.
CEO-Bench அறிமுகம்: மூலோபாய நுண்ணறிவின் உச்சகட்ட சோதனை
ஆராய்ச்சியாளர்கள் வெறும் ப்ராம்ப்டிங் (prompting) சோதனைகளைக் கடந்து, ஒரு நிறுவனத்தை நீண்ட கால இலக்குகளை நோக்கி வழிநடத்தும் ஒரு ஏஜெண்டின் திறனை அளவிடுவதற்காக வடிவமைக்கப்பட்ட கடுமையான உருவகப்படுத்துதலான CEO-Bench-ஐ உருவாக்கியுள்ளனர். இந்த பெஞ்ச்மார்க்கில், ஒரு AI ஏஜென்ட் "NovaMind" என்ற கற்பனையான சந்தா மென்பொருள் (subscription software) நிறுவனத்தின் கட்டுப்பாட்டைப் பெறுகிறது; இது $1 மில்லியன் மூலதனத்துடனும், பூஜ்ஜிய வாடிக்கையாளர்களுடனும் தொடங்குகிறது.
இந்தச் சூழல் நிஜ உலகின் ஏற்ற இறக்கங்களைப் பிரதிபலிக்கும் வகையில் வடிவமைக்கப்பட்டுள்ளது. ஏஜெண்டுகள் 34 கருவிகள் மற்றும் 19-அட்டவணை தரவுத்தளத்தைக் (database) கொண்ட ஒரு Python API உடன் தொடர்பு கொள்கின்றன, முடிவுகளை எடுக்க அவை தனிப்பயனாக்கப்பட்ட குறியீடுகள் (custom code) மற்றும் SQL வினவல்களை (queries) எழுத வேண்டியுள்ளது. இதில் ஆபத்து அதிகம்: 500 நாள் காலப்பகுதியில் எந்தவொரு கட்டத்திலும் நிறுவனத்தின் பண இருப்பு பூஜ்ஜியத்திற்குக் கீழே குறைந்தால், உருவகப்படுத்துதல் திவாலாவதோடு முடிந்துவிடும்.
தாமதமான பின்னூட்ட சுழற்சிகள் (delayed feedback loops) இதிலுள்ள சிக்கலை உருவாக்குகின்றன. பணிகளை மட்டுமே நோக்கமாகக் கொண்ட ஏஜெண்டுகளைப் போலன்றி, ஒரு CEO ஆராய்ச்சி மற்றும் மேம்பாட்டு (R&D) காலக்கெடு, சந்தை சுழற்சிகள் மற்றும் மாறிவரும் வாடிக்கையாளர் எதிர்பார்ப்புகளைக் கையாள வேண்டும். 10-வது நாளில் எடுக்கப்படும் முடிவுகள்—விளம்பரச் செலவு அல்லது விலை நிலைகள் போன்றவை—சந்தாதாரர் வளர்ச்சி அல்லது பணப்புழக்கத்தில் பல வாரங்களுக்குப் பிறகே கண்ணுக்குத் தெரியும் முடிவுகளைத் தரக்கூடும்.
திவாலாகும் நெருக்கடி: பெரும்பாலான மாதிரிகள் ஏன் தோல்வியடைகின்றன?
14 மாதிரிகள் பங்கேற்ற இந்தச் சோதனையின் முடிவுகள் அதிர்ச்சியளிக்கின்றன. பெரும்பாலான மாதிரிகளால் அடிப்படை கட்டளைகளைச் செயல்படுத்த முடிந்தாலும், நிதி நிலைத்தன்மையைப் பேணத் தேவையான ஒருங்கிணைந்த நீண்ட கால மூலோபாயத் திட்டம் அவற்றுக்கு இல்லை. பெரும்பாலான ஏஜெண்டுகள் சந்தையின் நிச்சயமற்ற தன்மையைக் கையாளத் தவறி, 500 நாட்களுக்கு முன்பே திவாலாகிவிட்டன.
ஒரு வியக்கத்தக்க ஒப்பீட்டில், ஒரு எளிய விதி அடிப்படையிலான ஹியூரிஸ்டிக் (rule-based heuristic)—நிலையான விலை நிர்ணயம் மற்றும் அடிப்படைத் திறன் மாற்றங்களைப் பயன்படுத்தும் ஒரு AI அல்லாத புரோகிராம்—$15.76 மில்லியனை எட்டியது. இது சோதிக்கப்பட்ட கிட்டத்தட்ட அனைத்து LLM-களையும் விடச் சிறப்பாகச் செயல்பட்டது, திசையற்ற "நுண்ணறிவு" என்பது ஒரு அடிப்படை, ஒழுக்கமான வணிகத் திட்டத்தை விட பெரும்பாலும் கீழானது என்பதை நிரூபித்தது.
அந்தத் தேர்ந்த மூன்று: Claude மற்றும் GPT முன்னிலை வகிக்கின்றன
ஆரம்ப மூலதனமான $1 மில்லியனை விட அதிகத் தொகையுடன் மூன்று மாதிரிகள் மட்டுமே தங்கள் ஓட்டத்தை முடிக்க முடிந்தது. இந்த மாதிரிகள் மறைக்கப்பட்ட தகவல்களைக் கண்டறியும் மற்றும் எதிர்கால பணப்புழக்கத்தைக் கணிக்கும் திறனை வெளிப்படுத்தின:
- Claude Fable 5: முதலிடம் பிடித்தது, வியக்கத்தக்க வகையில் $47.15 மில்லியனை எட்டியது மற்றும் பலமுறை சோதனையில் அதிக நிலைத்தன்மையைக் காட்டியது.
- Claude Opus 4.8: $27.8 மில்லியனை எட்டியது, வாடிக்கையாளர் குழுக்களை (customer cohorts) மாதிரியாக்கத் தனக்கென ஒரு உள் உருவகப்படுத்துதலை உருவாக்குவதன் மூலம் உயர்தரத் திறனை வெளிப்படுத்தியது.
- GPT-5.5: $21.3 மில்லியனை எட்டியது, மறைக்கப்பட்ட வாடிக்கையாளர் விருப்பங்களைக் கண்டறிய பேச்சுவார்த்தை வரலாறுகளைப் பகுப்பாய்வு செய்வதன் மூலம் வெற்றி பெற்றது.
சுவாரஸ்யமாக, இந்த மாதிரிகள் வெற்றிக்கான வெவ்வேறு பாதைகளைப் பயன்படுத்தின. Opus 4.8 ஆரம்பகால வாடிக்கையாளர் சேர்க்கையில் (customer acquisition) தீவிரமாக கவனம் செலுத்தியது, ஆனால் GPT-5.5 நிலையான வாடிக்கையாளர் தளத்தைப் பராமரிப்பதற்கே முன்னுரிமை அளித்தது. இதற்கு நேர்மாறாக, Claude Opus 4.7 போன்ற மாதிரிகள் "தப்பிப்பிழைக்கும்" (survivalist) மனநிலையைக் கொண்டிருந்தன; அவை குறிப்பிடத்தக்க லாபத்தை ஈட்டாமல், திவாலாவதைத் தவிர்க்க செலவுகளைக் குறைப்பதில் மட்டுமே கவனம் செலுத்தின.
இது AI-ன் எதிர்காலத்திற்கு ஏன் முக்கியமானது?
சிறந்த முறையில் செயல்பட்ட ஏஜெண்டுகளுக்கும் ($47.15M) உருவகப்படுத்துதலின் கோட்பாட்டு ரீதியான உச்ச வரம்புக்கும் ($2.2B) இடையிலான இடைவெளி, AI "வழிநடத்தும் நுண்ணறிவு" (steering intelligence) இன்னும் ஆரம்ப நிலையில் உள்ளது என்பதைக் காட்டுகிறது. டெவலப்பர்கள் மற்றும் நிறுவனர்களுக்கு, AI-ன் அடுத்த கட்டம் என்பது வெறும் சிறந்த தர்க்க ரீதியான சிந்தனை (reasoning) மட்டுமல்ல, சிறந்த கால உணர்வு (temporal awareness)—அதாவது நீண்ட, நிச்சயமற்ற காலப்பகுதிகளில் வளங்களையும் எதிர்பார்ப்புகளையும் நிர்வகிக்கும் திறன்—என்பதை இந்த பெஞ்ச்மார்க் அடிக்கோடிட்டுக் காட்டுகிறது.
முக்கியக் குறிப்புகள்
- மூலோபாய இடைவெளி: பெரும்பாலான தற்போதைய AI மாதிரிகள் நீண்ட கால வணிகச் சுழற்சிகளை நிர்வகிப்பதற்கான "வழிநடத்தும் நுண்ணறிவு" கொண்டிருக்கவில்லை, மேலும் பெரும்பாலானவை 500 நாள் உயிர் பிழைப்புச் சோதனையில் தோல்வியடைந்துள்ளன.
- சிறந்த செயல்திறன் கொண்டவை: Claude Fable 5, Claude Opus 4.8 மற்றும் GPT-5.5 ஆகிய மூன்று மாதிரிகள் மட்டுமே நிறுவனத்தின் மூலதனத்தை ஆரம்பத் தொகையான $1 மில்லியனுக்கும் மேலாக வெற்றிகரமாக வளர்த்தன.
- ஹியூரிஸ்டிக் பெஞ்ச்மார்க்: ஒரு எளிய, AI அல்லாத விதி அடிப்படையிலான அல்காரிதம் கிட்டத்தட்ட அனைத்து LLM-களையும் விடச் சிறப்பாகச் செயல்பட்டது, இது வெறும் கணக்கீட்டுத் திறனை விட மூலோபாயத் தொடர்ச்சி (strategic consistency) மிகவும் முக்கியமானது என்பதை வலியுறுத்துகிறது.
