फ्रंटियर AI मॉडल वित्तीय ट्राइएज (Financial Triage) परीक्षणों में क्यों विफल होते हैं

हालांकि GPT-4 और Claude जैसे विशाल LLMs सामान्य बेंचमार्क पर हावी हैं, लेकिन वे उच्च-जोखिम वाले वित्तीय वातावरण में आवश्यक सूक्ष्म निर्णय लेने की क्षमता (nuanced judgment) को दोहराने में संघर्ष कर रहे हैं। Bridgewater के AIA Labs और Thinking Machines Lab की एक नई रिपोर्ट से पता चलता है कि दुनिया के सबसे उन्नत मॉडल भी पेशेवर निवेश वर्कफ़्लो के लिए आवश्यक सटीकता सीमा (accuracy thresholds) को पूरा करने में विफल रहते हैं।

सामान्य बुद्धिमत्ता और वित्तीय निर्णय के बीच का अंतर

वित्त में मुख्य चुनौती केवल डेटा पढ़ना नहीं है; यह "ट्राइएज" (triage) की निरंतर प्रक्रिया है—यह तय करना कि वास्तव में कौन सी जानकारी मायने रखती है। शोधकर्ताओं ने एक निवेशक की दैनिक दिनचर्या के आधार पर छह महत्वपूर्ण कार्यों को परिभाषित किया, जैसे कि यह निर्धारित करना कि क्या केंद्रीय बैंक का कोई दस्तावेज़ ब्याज दरों में बदलाव का संकेत देता है या क्या कोई समाचार हेडलाइन किसी विशिष्ट कार्यकारी के लिए प्रासंगिक है।

इन परीक्षणों में, बुनियादी प्रॉम्प्टिंग (prompting) का उपयोग करते समय Gemini, Claude और GPT वेरिएंट जैसे फ्रंटियर मॉडल केवल लगभग 50% सटीकता तक ही पहुँच पाते हैं। यहाँ तक कि जब शोधकर्ताओं ने विशेषज्ञों द्वारा लिखे गए निर्देशों और एक परिष्कृत तीन-स्तरीय रेटिंग प्रणाली का उपयोग किया—जिसमें जानकारी को "प्रासंगिक और दिलचस्प," "प्रासंगिक लेकिन अरुचिकर," या "अप्रासंगिक" के रूप में वर्गीकृत किया गया—तो सटीकता केवल 70 के मध्य तक ही बढ़ पाई। यह हेज फंड (hedge fund) परिवेश में भरोसेमंद, स्वचालित तैनाती के लिए आवश्यक 80% सटीकता की सीमा से कम था।

ओपन-वेट मॉडल्स की फाइन-ट्यूनिंग: दक्षता में बड़ी सफलता

यह अध्ययन दर्शाता है कि पेशेवर स्तर के AI का मार्ग आवश्यक रूप से बड़े और अधिक महंगे प्रोप्राइटरी (proprietary) मॉडल्स के माध्यम से नहीं, बल्कि प्रोप्राइटरी विशेषज्ञता पर ओपन-वेट मॉडल्स की फाइन-ट्यूनिंग के माध्यम से है। पूर्व OpenAI CTO मीरा मुराती द्वारा स्थापित Thinking Machines Lab ने Qwen3-235B पर आधारित एक मॉडल को प्रशिक्षित करने के लिए अपने Tinker प्लेटफॉर्म का उपयोग किया।

परिणाम चौंकाने वाले थे। फाइन-ट्यून किए गए मॉडल ने 84.7% सटीकता प्राप्त की, जो परीक्षण किए गए सर्वश्रेष्ठ फ्रंटियर मॉडल (78.2%) से बेहतर थी, जबकि इसे चलाने की लागत लगभग 14 गुना कम थी। यह एक महत्वपूर्ण आर्थिक वास्तविकता को उजागर करता है: GPT-5.4 जैसे नए और बड़े मॉडल घटते प्रतिफल (diminishing returns) प्रदान करते हैं, जो अक्सर सटीकता में केवल मामूली सुधार के लिए काफी अधिक लागत वसूलते हैं।

प्रोप्राइटरी डेटा और मानवीय फीडबैक की शक्ति

इस विकास से एक प्रमुख तकनीकी निष्कर्ष मानवीय विशेषज्ञता को बढ़ाने के लिए उपयोग की जाने वाली कार्यप्रणाली है। महंगे निवेशकों से प्रत्येक दस्तावेज़ को लेबल करवाने के बजाय, टीम ने एक चतुर "असहमति" (disagreement) लूप का उपयोग किया। एक मॉडल ने पहले शुरुआती लेबल से सीखा; जब मॉडल का मूल्यांकन मूल लेबल से असहमत हुआ, तो उस विशिष्ट मामले को मानवीय समीक्षा के लिए चिह्नित कर दिया गया। इसने यह सुनिश्चित किया कि निवेशकों के बहुमूल्य समय का उपयोग केवल वास्तविक त्रुटियों को सुधारने में किया जाए, जिससे फाइन-ट्यूनिंग के लिए एक उच्च-गुणवत्ता वाला डेटासेट तैयार हुआ।

यह दृष्टिकोण "डेटा मोट" (data moat) की समस्या को हल करता है। जबकि बड़े लैब्स ने सार्वजनिक इंटरनेट का बहुत सारा डेटा स्क्रैप किया है, उनके पास वित्त पेशेवरों के दिमाग में मौजूद निजी और सूक्ष्म निर्णय लेने की क्षमता तक पहुंच नहीं है। ओपन-वेट मॉडल्स का उपयोग करके, कंपनियां अपने प्रोप्राइटरी डेटा, अपने वेट्स (weights) और अपने प्रतिस्पर्धी लाभ को पूरी तरह से इन-हाउस रख सकती हैं।

मुख्य निष्कर्ष

  • फ्रंटियर की सीमाएं: सामान्य उद्देश्य वाले LLMs विशेष वित्तीय ट्राइएज के साथ संघर्ष करते हैं, और अक्सर पेशेवर उपयोग के लिए आवश्यक 80% सटीकता की सीमा को पूरा करने में विफल रहते हैं।
  • ओपन-वेट मॉडल्स के माध्यम से दक्षता: Qwen3-235B पर आधारित मॉडल्स जैसे फाइन-ट्यून किए गए मॉडल, परिचालन लागत के एक छोटे से हिस्से पर प्रोप्राइटरी दिग्गजों से बेहतर प्रदर्शन कर सकते हैं।
  • निजी डेटा का मूल्य: सबसे महत्वपूर्ण AI लाभ अब प्रोप्राइटरी, "अन-स्क्रैप्ड" (un-scraped) कॉर्पोरेट डेटा और मानव विशेषज्ञों के विशेष निर्णय में निहित हैं।