अत्याधुनिक एआय मॉडेल्स आर्थिक ट्रायज चाचण्यांमध्ये का अपयशी ठरतात?

Translated for your language. Read the original.

AI-assisted draft.

अत्याधुनिक एआय मॉडेल्स आर्थिक ट्रायज चाचण्यांमध्ये का अपयशी ठरतात?

In this article

अत्याधुनिक AI मॉडेल्स आर्थिक ट्रायज चाचण्यांमध्ये का अपयशी ठरतात

जरी GPT-4 आणि Claude सारखी प्रचंड मोठी LLMs सामान्य बेंचमार्कमध्ये वर्चस्व गाजवत असली, तरी उच्च-जोखीम असलेल्या आर्थिक वातावरणात आवश्यक असलेली सूक्ष्म निर्णयक्षमता दाखवण्यात त्यांना संघर्ष करावा लागत आहे. Bridgewater च्या AIA Labs आणि Thinking Machines Lab च्या एका नवीन अहवालातून असे दिसून येते की, जगातील सर्वात प्रगत मॉडेल्स देखील व्यावसायिक गुंतवणूक कार्यप्रवाहासाठी आवश्यक असलेल्या अचूकतेची मर्यादा गाठण्यात अपयशी ठरत आहेत.

सामान्य बुद्धिमत्ता आणि आर्थिक निर्णयक्षमता यातील तफावत

फायनान्समधील मुख्य आव्हान केवळ डेटा वाचणे हे नाही; तर ते "ट्रायज" (triage)—म्हणजेच कोणती माहिती खरोखर महत्त्वाची आहे हे ठरवण्याच्या सततच्या प्रवाहाचे आहे. संशोधकांनी गुंतवणूकदाराच्या दैनंदिन दिनचर्येवर आधारित सहा महत्त्वपूर्ण कार्ये परिभाषित केली आहेत, जसे की मध्यवर्ती बँकेचा दस्तऐवज व्याजदरातील बदलाचा संकेत देतो का किंवा एखादी बातमी एखाद्या विशिष्ट कार्यकारी अधिकाऱ्यासाठी संबंधित आहे का हे ठरवणे.

या चाचण्यांमध्ये, Gemini, Claude आणि GPT च्या विविध प्रकारांसारख्या अत्याधुनिक मॉडेल्सनी मूलभूत प्रॉम्प्टिंग वापरताना केवळ ५०% च्या आसपास अचूकता गाठली. संशोधकांनी तज्ञांनी लिहिलेल्या सूचना आणि एक प्रगत तीन-स्तरीय रेटिंग प्रणाली—माहितीचे "संबंधित आणि मनोरंजक", "संबंधित परंतु मनोरंजक नाही" किंवा "असंगत" असे वर्गीकरण—वापरली तरीही अचूकता केवळ ७० च्या मध्यभागापर्यंतच पोहोचली. हे हेज फंड वातावरणात विश्वासार्ह, स्वयंचलित उपयोजनासाठी आवश्यक असलेल्या ८०% अचूकतेच्या मर्यादेपेक्षा कमी होते.

ओपन-वेट मॉडेल्सचे फाईन-ट्यूनिंग: कार्यक्षमतेतील मोठी झेप

हा अभ्यास दर्शवतो की व्यावसायिक दर्जाच्या AI कडे जाण्याचा मार्ग केवळ मोठ्या आणि अधिक महागड्या प्रोप्रायटरी मॉडेल्सद्वारे नाही, तर प्रोप्रायटरी तज्ञतेवर आधारित ओपन-वेट मॉडेल्सचे फाईन-ट्यूनिंग करण्याद्वारे आहे. OpenAI च्या माजी CTO मीरा मुराती यांनी स्थापन केलेल्या Thinking Machines Lab ने Qwen3-235B वर आधारित मॉडेल प्रशिक्षित करण्यासाठी त्यांच्या Tinker प्लॅटफॉर्मचा वापर केला.

निकाल धक्कादायक होते. फाईन-ट्यून केलेल्या मॉडेलने ८४.७% अचूकता प्राप्त केली, जी चाचणी घेतलेल्या सर्वोत्तम अत्याधुनिक मॉडेलपेक्षा (७८.२%) सरस होती, आणि हे मॉडेल चालवण्यासाठी खर्चही जवळपास १४ पटीने कमी होता. हे एक महत्त्वाचे आर्थिक वास्तव अधोरेखित करते: GPT-5.4 सारखी नवीन, मोठी मॉडेल्स कमी परतावा (diminishing returns) देतात, कारण अचूकतेमध्ये केवळ किरकोळ सुधारणा करण्यासाठी अनेकदा खूप जास्त खर्च येतो.

प्रोप्रायटरी डेटा आणि मानवी फीडबॅकची शक्ती

या घडामोडीतून मिळालेला एक महत्त्वाचा तांत्रिक निष्कर्ष म्हणजे मानवी तज्ञता वाढवण्यासाठी वापरलेली कार्यपद्धती. प्रत्येक दस्तऐवजावर महागड्या गुंतवणूकदारांकडून लेबलिंग करून घेण्याऐवजी, टीमने एक चतुर "डिसअग्रीमेंट" (disagreement) लूप वापरला. मॉडेलने प्रथम सुरुवातीच्या लेबल्सवरून शिकले; जेव्हा मॉडेलचे मूल्यांकन मूळ लेबलशी विसंगत होते, तेव्हा तो विशिष्ट प्रसंग मानवी पुनरावलोकनासाठी चिन्हांकित केला गेला. यामुळे गुंतवणूकदारांचा मौल्यवान वेळ केवळ प्रत्यक्ष चुका सुधारण्यासाठीच वापरला गेला, ज्यामुळे फाईन-ट्यूनिंगसाठी उच्च-गुणवत्तेचा डेटासेट तयार झाला.

हा दृष्टिकोन "डेटा मोट" (data moat) समस्या सोडवतो. मोठ्या लॅब्सनी सार्वजनिक इंटरनेटचा मोठा भाग स्क्रॅप केला असला तरी, त्यांच्याकडे फायनान्स प्रोफेशनल्सच्या डोक्यात असलेली खाजगी आणि सूक्ष्म निर्णयक्षमता उपलब्ध नाही. ओपन-वेट मॉडेल्स वापरून, कंपन्या त्यांचा प्रोप्रायटरी डेटा, त्यांचे वेट्स आणि त्यांचे स्पर्धात्मक फायदे पूर्णपणे स्वतःच्या नियंत्रणात (in-house) ठेवू शकतात.

मुख्य निष्कर्ष

अत्याधुनिक मॉडेल्सच्या मर्यादा: सामान्य उद्देशासाठी वापरली जाणारी LLMs विशेष आर्थिक ट्रायजमध्ये संघर्ष करतात, आणि अनेकदा व्यावसायिक वापरासाठी आवश्यक असलेली ८०% अचूकतेची मर्यादा गाठण्यात अपयशी ठरतात.
ओपन-वेट मॉडेल्सद्वारे कार्यक्षमता: Qwen3-235B वर आधारित मॉडेल्ससारखी फाईन-ट्यून केलेली मॉडेल्स, प्रोप्रायटरी दिग्गज मॉडेल्सपेक्षा अत्यंत कमी परिचालन खर्चात सरस कामगिरी करू शकतात.
खाजगी डेटाचे मूल्य: आता सर्वात महत्त्वपूर्ण AI प्रगती प्रोप्रायटरी, "अन-स्क्रॅपड" (un-scraped) कॉर्पोरेट डेटा आणि मानवी तज्ञांच्या विशेष निर्णयक्षमतेमध्ये सामावलेली आहे.

अत्याधुनिक एआय मॉडेल्स आर्थिक ट्रायज चाचण्यांमध्ये का अपयशी ठरतात?

अत्याधुनिक AI मॉडेल्स आर्थिक ट्रायज चाचण्यांमध्ये का अपयशी ठरतात

सामान्य बुद्धिमत्ता आणि आर्थिक निर्णयक्षमता यातील तफावत

ओपन-वेट मॉडेल्सचे फाईन-ट्यूनिंग: कार्यक्षमतेतील मोठी झेप

प्रोप्रायटरी डेटा आणि मानवी फीडबॅकची शक्ती

मुख्य निष्कर्ष

Continue reading

AI निर्णयाची जागा घेऊ शकत नाही

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

Fine Tuning AI Models Is No Longer Just for ML Engineers

OpenAI चे GPT 5.6 Sol सॉफ्टवेअर बेंचमार्क्समध्ये फसवणूक करताना पकडले गेले

मानक AI बेंचमार्क पद्धतशीरपणे एजंटची क्षमता कमी का लेखतात?