अत्याधुनिक AI मॉडेल्स आर्थिक ट्रायज चाचण्यांमध्ये का अपयशी ठरतात

जरी GPT-4 आणि Claude सारखी प्रचंड मोठी LLMs सामान्य बेंचमार्कमध्ये वर्चस्व गाजवत असली, तरी उच्च-जोखीम असलेल्या आर्थिक वातावरणात आवश्यक असलेली सूक्ष्म निर्णयक्षमता दाखवण्यात त्यांना संघर्ष करावा लागत आहे. Bridgewater च्या AIA Labs आणि Thinking Machines Lab च्या एका नवीन अहवालातून असे दिसून येते की, जगातील सर्वात प्रगत मॉडेल्स देखील व्यावसायिक गुंतवणूक कार्यप्रवाहासाठी आवश्यक असलेल्या अचूकतेची मर्यादा गाठण्यात अपयशी ठरत आहेत.

सामान्य बुद्धिमत्ता आणि आर्थिक निर्णयक्षमता यातील तफावत

फायनान्समधील मुख्य आव्हान केवळ डेटा वाचणे हे नाही; तर ते "ट्रायज" (triage)—म्हणजेच कोणती माहिती खरोखर महत्त्वाची आहे हे ठरवण्याच्या सततच्या प्रवाहाचे आहे. संशोधकांनी गुंतवणूकदाराच्या दैनंदिन दिनचर्येवर आधारित सहा महत्त्वपूर्ण कार्ये परिभाषित केली आहेत, जसे की मध्यवर्ती बँकेचा दस्तऐवज व्याजदरातील बदलाचा संकेत देतो का किंवा एखादी बातमी एखाद्या विशिष्ट कार्यकारी अधिकाऱ्यासाठी संबंधित आहे का हे ठरवणे.

या चाचण्यांमध्ये, Gemini, Claude आणि GPT च्या विविध प्रकारांसारख्या अत्याधुनिक मॉडेल्सनी मूलभूत प्रॉम्प्टिंग वापरताना केवळ ५०% च्या आसपास अचूकता गाठली. संशोधकांनी तज्ञांनी लिहिलेल्या सूचना आणि एक प्रगत तीन-स्तरीय रेटिंग प्रणाली—माहितीचे "संबंधित आणि मनोरंजक", "संबंधित परंतु मनोरंजक नाही" किंवा "असंगत" असे वर्गीकरण—वापरली तरीही अचूकता केवळ ७० च्या मध्यभागापर्यंतच पोहोचली. हे हेज फंड वातावरणात विश्वासार्ह, स्वयंचलित उपयोजनासाठी आवश्यक असलेल्या ८०% अचूकतेच्या मर्यादेपेक्षा कमी होते.

ओपन-वेट मॉडेल्सचे फाईन-ट्यूनिंग: कार्यक्षमतेतील मोठी झेप

हा अभ्यास दर्शवतो की व्यावसायिक दर्जाच्या AI कडे जाण्याचा मार्ग केवळ मोठ्या आणि अधिक महागड्या प्रोप्रायटरी मॉडेल्सद्वारे नाही, तर प्रोप्रायटरी तज्ञतेवर आधारित ओपन-वेट मॉडेल्सचे फाईन-ट्यूनिंग करण्याद्वारे आहे. OpenAI च्या माजी CTO मीरा मुराती यांनी स्थापन केलेल्या Thinking Machines Lab ने Qwen3-235B वर आधारित मॉडेल प्रशिक्षित करण्यासाठी त्यांच्या Tinker प्लॅटफॉर्मचा वापर केला.

निकाल धक्कादायक होते. फाईन-ट्यून केलेल्या मॉडेलने ८४.७% अचूकता प्राप्त केली, जी चाचणी घेतलेल्या सर्वोत्तम अत्याधुनिक मॉडेलपेक्षा (७८.२%) सरस होती, आणि हे मॉडेल चालवण्यासाठी खर्चही जवळपास १४ पटीने कमी होता. हे एक महत्त्वाचे आर्थिक वास्तव अधोरेखित करते: GPT-5.4 सारखी नवीन, मोठी मॉडेल्स कमी परतावा (diminishing returns) देतात, कारण अचूकतेमध्ये केवळ किरकोळ सुधारणा करण्यासाठी अनेकदा खूप जास्त खर्च येतो.

प्रोप्रायटरी डेटा आणि मानवी फीडबॅकची शक्ती

या घडामोडीतून मिळालेला एक महत्त्वाचा तांत्रिक निष्कर्ष म्हणजे मानवी तज्ञता वाढवण्यासाठी वापरलेली कार्यपद्धती. प्रत्येक दस्तऐवजावर महागड्या गुंतवणूकदारांकडून लेबलिंग करून घेण्याऐवजी, टीमने एक चतुर "डिसअग्रीमेंट" (disagreement) लूप वापरला. मॉडेलने प्रथम सुरुवातीच्या लेबल्सवरून शिकले; जेव्हा मॉडेलचे मूल्यांकन मूळ लेबलशी विसंगत होते, तेव्हा तो विशिष्ट प्रसंग मानवी पुनरावलोकनासाठी चिन्हांकित केला गेला. यामुळे गुंतवणूकदारांचा मौल्यवान वेळ केवळ प्रत्यक्ष चुका सुधारण्यासाठीच वापरला गेला, ज्यामुळे फाईन-ट्यूनिंगसाठी उच्च-गुणवत्तेचा डेटासेट तयार झाला.

हा दृष्टिकोन "डेटा मोट" (data moat) समस्या सोडवतो. मोठ्या लॅब्सनी सार्वजनिक इंटरनेटचा मोठा भाग स्क्रॅप केला असला तरी, त्यांच्याकडे फायनान्स प्रोफेशनल्सच्या डोक्यात असलेली खाजगी आणि सूक्ष्म निर्णयक्षमता उपलब्ध नाही. ओपन-वेट मॉडेल्स वापरून, कंपन्या त्यांचा प्रोप्रायटरी डेटा, त्यांचे वेट्स आणि त्यांचे स्पर्धात्मक फायदे पूर्णपणे स्वतःच्या नियंत्रणात (in-house) ठेवू शकतात.

मुख्य निष्कर्ष

  • अत्याधुनिक मॉडेल्सच्या मर्यादा: सामान्य उद्देशासाठी वापरली जाणारी LLMs विशेष आर्थिक ट्रायजमध्ये संघर्ष करतात, आणि अनेकदा व्यावसायिक वापरासाठी आवश्यक असलेली ८०% अचूकतेची मर्यादा गाठण्यात अपयशी ठरतात.
  • ओपन-वेट मॉडेल्सद्वारे कार्यक्षमता: Qwen3-235B वर आधारित मॉडेल्ससारखी फाईन-ट्यून केलेली मॉडेल्स, प्रोप्रायटरी दिग्गज मॉडेल्सपेक्षा अत्यंत कमी परिचालन खर्चात सरस कामगिरी करू शकतात.
  • खाजगी डेटाचे मूल्य: आता सर्वात महत्त्वपूर्ण AI प्रगती प्रोप्रायटरी, "अन-स्क्रॅपड" (un-scraped) कॉर्पोरेट डेटा आणि मानवी तज्ञांच्या विशेष निर्णयक्षमतेमध्ये सामावलेली आहे.