ફ્રન્ટિયર AI મોડલ્સ ફાઇનાન્શિયલ ટ્રાયેજ ટેસ્ટમાં કેમ નિષ્ફળ જાય છે

જ્યારે GPT-4 અને Claude જેવા વિશાળ LLMs સામાન્ય બેન્ચમાર્ક પર પ્રભુત્વ ધરાવે છે, ત્યારે તેઓ ઉચ્ચ-જોખમ ધરાવતા નાણાકીય વાતાવરણમાં જરૂરી સૂક્ષ્મ નિર્ણયશક્તિ (nuanced judgment) પ્રદર્શિત કરવામાં સંઘર્ષ કરી રહ્યા છે. Bridgewater ના AIA Labs અને Thinking Machines Lab ના એક નવા અહેવાલ પરથી જાણવા મળે છે કે વિશ્વના સૌથી અદ્યતન મોડલ્સ પણ વ્યાવસાયિક રોકાણ કાર્યપ્રવાહો (investment workflows) માટે જરૂરી ચોકસાઈની મર્યાદાઓ પૂરી કરવામાં નિષ્ફળ જાય છે.

સામાન્ય બુદ્ધિ અને નાણાકીય નિર્ણયશક્તિ વચ્ચેનું અંતર

ફાઇનાન્સમાં મુખ્ય પડકાર માત્ર ડેટા વાંચવાનો નથી; તે "ટ્રાયેજ" (triage) ની સતત પ્રક્રિયા છે—એટલે કે કઈ માહિતી ખરેખર મહત્વની છે તેનો નિર્ણય લેવો. સંશોધકોએ રોકાણકારની દૈનિક દિનચર્યાના આધારે છ મહત્વપૂર્ણ કાર્યો વ્યાખ્યાયિત કર્યા છે, જેમ કે સેન્ટ્રલ બેંકનો દસ્તાવેજ વ્યાજ દરમાં ફેરફારનો સંકેત આપે છે કે નહીં અથવા સમાચારની હેડલાઇન કોઈ ચોક્કસ એક્ઝિક્યુટિવ માટે સુસંગત છે કે નહીં તે નક્કી કરવું.

આ પરીક્ષણોમાં, Gemini, Claude અને GPT વેરિઅન્ટ્સ જેવા ફ્રન્ટિયર મોડલ્સ જ્યારે મૂળભૂત પ્રોમ્પ્ટિંગનો ઉપયોગ કરે છે ત્યારે માત્ર 50% ની આસપાસ ચોકસાઈ મેળવે છે. જ્યારે સંશોધકોએ નિષ્ણાતો દ્વારા લખાયેલી સૂચનાઓ અને એક અત્યાધુનિક ત્રણ-સ્તરીય રેટિંગ સિસ્ટમનો ઉપયોગ કર્યો—માહિતીને "સુસંગત અને રસપ્રદ", "સુસંગત પરંતુ બિનરસપ્રદ", અથવા "બિનસંગત" તરીકે વર્ગીકૃત કરીને—ત્યારે ચોકસાઈ વધીને માત્ર 70 ના મધ્યમ સ્તર સુધી પહોંચી હતી. આ હેજ ફંડના વાતાવરણમાં વિશ્વસનીય, સ્વચાલિત ઉપયોગ માટે જરૂરી 80% ચોકસાઈની મર્યાદાથી ઓછું હતું.

ઓપન-વેઇટ મોડલ્સનું ફાઇન-ટ્યુનિંગ: કાર્યક્ષમતામાં મોટી સફળતા

આ અભ્યાસ દર્શાવે છે કે વ્યાવસાયિક-સ્તરના AI તરફનો માર્ગ የግટેથી મોડેલ્સ અથવા વધુ મોંઘા પ્રોપ્રાઇટરી મોડલ્સ દ્વારા જ હોવો જરૂરી નથી, પરંતુ પ્રોપ્રાઇટરી નિપુણતા પર ઓપન-વેઇટ મોડલ્સનું ફાઇન-ટ્યુનિંગ કરીને પણ મેળવી શકાય છે. પૂર્વ OpenAI CTO Mira Murati દ્વારા સ્થાપિત Thinking Machines Lab એ Qwen3-235B પર આધારિત મોડેલને તાલીમ આપવા માટે તેના Tinker પ્લેટફોર્મનો ઉપયોગ કર્યો હતો.

પરિણામો ચોંકાવનારા હતા. ફાઇન-ટ્યુન કરેલા મોડેલે 84.7% ચોકસાઈ હાંસલ કરી, જે પરીક્ષણ કરાયેલ શ્રેષ્ઠ ફ્રન્ટિયર મોડેલ (78.2%) કરતા વધુ સારું પ્રદર્શન કરે છે, અને તે પણ ઓપરેટ કરવા માટે લગભગ 14 ગણો ઓછો ખર્ચ ધરાવે છે. આ એક મહત્વપૂર્ણ આર્થિક વાસ્તવિકતા પર પ્રકાશ પાડે છે: GPT-5.4 જેવા નવા અને મોટા મોડલ્સ ઘટતા જતાં વળતર (diminishing returns) આપે છે, જે ઘણીવાર ચોકસાઈમાં માત્ર નજીવા સુધારા માટે નોંધપાત્ર રીતે વધુ ખર્ચાળ હોય છે.

પ્રોપ્રાઇટરી ડેટા અને માનવ પ્રતિસાદની શક્તિ

આ વિકાસમાંથી મુખ્ય તકનીકી તારણ એ છે કે માનવ નિપુણતાને સ્કેલ કરવા માટે કઈ પદ્ધતિનો ઉપયોગ કરવામાં આવ્યો હતો. દરેક દસ્તાવેજને લેબલ કરવા માટે મોંઘા રોકાણકારોનો ઉપયોગ કરવાને બદલે, ટીમે એક ચતુર "ડિસએગ્રીમેન્ટ" (disagreement) લૂપનો ઉપયોગ કર્યો. મોડેલે પહેલા પ્રારંભિક લેબલ્સમાંથી શીખ્યું; જ્યારે મોડેલનું મૂલ્યાંકન મૂળ લેબલ સાથે અસંમત થયું, ત્યારે તે ચોક્કસ કેસને માનવ સમીક્ષા માટે ફ્લેગ કરવામાં આવ્યો હતો. આનાથી એ સુનિશ્ચિત થયું કે રોકાણકારોનો કિંમતી સમય માત્ર વાસ્તવિક ભૂલો સુધારવા માટે જ વપરાય, જેનાથી ફાઇન-ટ્યુનિંગ માટે ઉચ્ચ-ગુણવત્તાવાળો ડેટાસેટ તૈયાર થયો.

આ અભિગમ "ડેટા મોટ" (data moat) સમસ્યાનું સમાધાન કરે છે. જ્યારે મોટા લેબ્સ ઇન્ટરનેટના મોટાભાગના જાહેર ડેટાનો ઉપયોગ (scrape) કરી ચૂક્યા છે, ત્યારે તેમની પાસે ફાઇનાન્સ પ્રોફેશનલ્સના મગજમાં રહેલી ખાનગી અને સૂક્ષ્મ નિર્ણયશક્તિની પહોંચ નથી. ઓપન-વેઇટ મોડલ્સનો ઉપયોગ કરીને, કંપનીઓ તેમનો પ્રોપ્રાઇટરી ડેટા, તેમના વેટ્સ (weights) અને તેમની સ્પર્ધાત્મક સરસાઈ સંપૂર્ણપણે ઇન-હાઉસ રાખી શકે છે.

મુખ્ય તારણો

  • ફ્રન્ટિયર મર્યાદાઓ: સામાન્ય હેતુ માટેના LLMs વિશિષ્ટ નાણાકીય ટ્રાયેજ સાથે સંઘર્ષ કરે છે, જે ઘણીવાર વ્યાવસાયિક ઉપયોગ માટે જરૂરી 80% ચોકસાઈની મર્યાદા પૂરી કરવામાં નિષ્ફળ જાય છે.
  • ઓપન-વેઇટ મોડલ્સ દ્વારા કાર્યક્ષમતા: Qwen3-235B પર આધારિત મોડેલ્સ જેવા ફાઇન-ટ્યુન કરેલા મોડેલ્સ, ઓપરેશનલ ખર્ચના ખૂબ જ નાના ભાગમાં પ્રોપ્રાઇટરી જાયન્ટ્સ કરતા વધુ સારું પ્રદર્શન કરી શકે છે.
  • ખાનગી ડેટાનું મૂલ્ય: AI માં સૌથી નોંધપાત્ર લાભો હવે પ્રોપ્રાઇટરી, "અન-સ્ક્રૅપ્ડ" (un-scraped) કોર્પોરેટ ડેટા અને માનવ નિષ્ણાતોના વિશિષ્ટ નિર્ણયશક્તિમાં રહેલા છે.