Why Frontier AI Models Fail Financial Triage Tests

Translated for your language. Read the original.

AI-assisted draft.

Why Frontier AI Models Fail Financial Triage Tests

In this article

ફ્રન્ટિયર AI મોડલ્સ ફાઇનાન્શિયલ ટ્રાયેજ ટેસ્ટમાં કેમ નિષ્ફળ જાય છે

જ્યારે GPT-4 અને Claude જેવા વિશાળ LLMs સામાન્ય બેન્ચમાર્ક પર પ્રભુત્વ ધરાવે છે, ત્યારે તેઓ ઉચ્ચ-જોખમ ધરાવતા નાણાકીય વાતાવરણમાં જરૂરી સૂક્ષ્મ નિર્ણયશક્તિ (nuanced judgment) પ્રદર્શિત કરવામાં સંઘર્ષ કરી રહ્યા છે. Bridgewater ના AIA Labs અને Thinking Machines Lab ના એક નવા અહેવાલ પરથી જાણવા મળે છે કે વિશ્વના સૌથી અદ્યતન મોડલ્સ પણ વ્યાવસાયિક રોકાણ કાર્યપ્રવાહો (investment workflows) માટે જરૂરી ચોકસાઈની મર્યાદાઓ પૂરી કરવામાં નિષ્ફળ જાય છે.

સામાન્ય બુદ્ધિ અને નાણાકીય નિર્ણયશક્તિ વચ્ચેનું અંતર

ફાઇનાન્સમાં મુખ્ય પડકાર માત્ર ડેટા વાંચવાનો નથી; તે "ટ્રાયેજ" (triage) ની સતત પ્રક્રિયા છે—એટલે કે કઈ માહિતી ખરેખર મહત્વની છે તેનો નિર્ણય લેવો. સંશોધકોએ રોકાણકારની દૈનિક દિનચર્યાના આધારે છ મહત્વપૂર્ણ કાર્યો વ્યાખ્યાયિત કર્યા છે, જેમ કે સેન્ટ્રલ બેંકનો દસ્તાવેજ વ્યાજ દરમાં ફેરફારનો સંકેત આપે છે કે નહીં અથવા સમાચારની હેડલાઇન કોઈ ચોક્કસ એક્ઝિક્યુટિવ માટે સુસંગત છે કે નહીં તે નક્કી કરવું.

આ પરીક્ષણોમાં, Gemini, Claude અને GPT વેરિઅન્ટ્સ જેવા ફ્રન્ટિયર મોડલ્સ જ્યારે મૂળભૂત પ્રોમ્પ્ટિંગનો ઉપયોગ કરે છે ત્યારે માત્ર 50% ની આસપાસ ચોકસાઈ મેળવે છે. જ્યારે સંશોધકોએ નિષ્ણાતો દ્વારા લખાયેલી સૂચનાઓ અને એક અત્યાધુનિક ત્રણ-સ્તરીય રેટિંગ સિસ્ટમનો ઉપયોગ કર્યો—માહિતીને "સુસંગત અને રસપ્રદ", "સુસંગત પરંતુ બિનરસપ્રદ", અથવા "બિનસંગત" તરીકે વર્ગીકૃત કરીને—ત્યારે ચોકસાઈ વધીને માત્ર 70 ના મધ્યમ સ્તર સુધી પહોંચી હતી. આ હેજ ફંડના વાતાવરણમાં વિશ્વસનીય, સ્વચાલિત ઉપયોગ માટે જરૂરી 80% ચોકસાઈની મર્યાદાથી ઓછું હતું.

ઓપન-વેઇટ મોડલ્સનું ફાઇન-ટ્યુનિંગ: કાર્યક્ષમતામાં મોટી સફળતા

આ અભ્યાસ દર્શાવે છે કે વ્યાવસાયિક-સ્તરના AI તરફનો માર્ગ የግટેથી મોડેલ્સ અથવા વધુ મોંઘા પ્રોપ્રાઇટરી મોડલ્સ દ્વારા જ હોવો જરૂરી નથી, પરંતુ પ્રોપ્રાઇટરી નિપુણતા પર ઓપન-વેઇટ મોડલ્સનું ફાઇન-ટ્યુનિંગ કરીને પણ મેળવી શકાય છે. પૂર્વ OpenAI CTO Mira Murati દ્વારા સ્થાપિત Thinking Machines Lab એ Qwen3-235B પર આધારિત મોડેલને તાલીમ આપવા માટે તેના Tinker પ્લેટફોર્મનો ઉપયોગ કર્યો હતો.

પરિણામો ચોંકાવનારા હતા. ફાઇન-ટ્યુન કરેલા મોડેલે 84.7% ચોકસાઈ હાંસલ કરી, જે પરીક્ષણ કરાયેલ શ્રેષ્ઠ ફ્રન્ટિયર મોડેલ (78.2%) કરતા વધુ સારું પ્રદર્શન કરે છે, અને તે પણ ઓપરેટ કરવા માટે લગભગ 14 ગણો ઓછો ખર્ચ ધરાવે છે. આ એક મહત્વપૂર્ણ આર્થિક વાસ્તવિકતા પર પ્રકાશ પાડે છે: GPT-5.4 જેવા નવા અને મોટા મોડલ્સ ઘટતા જતાં વળતર (diminishing returns) આપે છે, જે ઘણીવાર ચોકસાઈમાં માત્ર નજીવા સુધારા માટે નોંધપાત્ર રીતે વધુ ખર્ચાળ હોય છે.

પ્રોપ્રાઇટરી ડેટા અને માનવ પ્રતિસાદની શક્તિ

આ વિકાસમાંથી મુખ્ય તકનીકી તારણ એ છે કે માનવ નિપુણતાને સ્કેલ કરવા માટે કઈ પદ્ધતિનો ઉપયોગ કરવામાં આવ્યો હતો. દરેક દસ્તાવેજને લેબલ કરવા માટે મોંઘા રોકાણકારોનો ઉપયોગ કરવાને બદલે, ટીમે એક ચતુર "ડિસએગ્રીમેન્ટ" (disagreement) લૂપનો ઉપયોગ કર્યો. મોડેલે પહેલા પ્રારંભિક લેબલ્સમાંથી શીખ્યું; જ્યારે મોડેલનું મૂલ્યાંકન મૂળ લેબલ સાથે અસંમત થયું, ત્યારે તે ચોક્કસ કેસને માનવ સમીક્ષા માટે ફ્લેગ કરવામાં આવ્યો હતો. આનાથી એ સુનિશ્ચિત થયું કે રોકાણકારોનો કિંમતી સમય માત્ર વાસ્તવિક ભૂલો સુધારવા માટે જ વપરાય, જેનાથી ફાઇન-ટ્યુનિંગ માટે ઉચ્ચ-ગુણવત્તાવાળો ડેટાસેટ તૈયાર થયો.

આ અભિગમ "ડેટા મોટ" (data moat) સમસ્યાનું સમાધાન કરે છે. જ્યારે મોટા લેબ્સ ઇન્ટરનેટના મોટાભાગના જાહેર ડેટાનો ઉપયોગ (scrape) કરી ચૂક્યા છે, ત્યારે તેમની પાસે ફાઇનાન્સ પ્રોફેશનલ્સના મગજમાં રહેલી ખાનગી અને સૂક્ષ્મ નિર્ણયશક્તિની પહોંચ નથી. ઓપન-વેઇટ મોડલ્સનો ઉપયોગ કરીને, કંપનીઓ તેમનો પ્રોપ્રાઇટરી ડેટા, તેમના વેટ્સ (weights) અને તેમની સ્પર્ધાત્મક સરસાઈ સંપૂર્ણપણે ઇન-હાઉસ રાખી શકે છે.

મુખ્ય તારણો

ફ્રન્ટિયર મર્યાદાઓ: સામાન્ય હેતુ માટેના LLMs વિશિષ્ટ નાણાકીય ટ્રાયેજ સાથે સંઘર્ષ કરે છે, જે ઘણીવાર વ્યાવસાયિક ઉપયોગ માટે જરૂરી 80% ચોકસાઈની મર્યાદા પૂરી કરવામાં નિષ્ફળ જાય છે.
ઓપન-વેઇટ મોડલ્સ દ્વારા કાર્યક્ષમતા: Qwen3-235B પર આધારિત મોડેલ્સ જેવા ફાઇન-ટ્યુન કરેલા મોડેલ્સ, ઓપરેશનલ ખર્ચના ખૂબ જ નાના ભાગમાં પ્રોપ્રાઇટરી જાયન્ટ્સ કરતા વધુ સારું પ્રદર્શન કરી શકે છે.
ખાનગી ડેટાનું મૂલ્ય: AI માં સૌથી નોંધપાત્ર લાભો હવે પ્રોપ્રાઇટરી, "અન-સ્ક્રૅપ્ડ" (un-scraped) કોર્પોરેટ ડેટા અને માનવ નિષ્ણાતોના વિશિષ્ટ નિર્ણયશક્તિમાં રહેલા છે.

Why Frontier AI Models Fail Financial Triage Tests

ફ્રન્ટિયર AI મોડલ્સ ફાઇનાન્શિયલ ટ્રાયેજ ટેસ્ટમાં કેમ નિષ્ફળ જાય છે

સામાન્ય બુદ્ધિ અને નાણાકીય નિર્ણયશક્તિ વચ્ચેનું અંતર

ઓપન-વેઇટ મોડલ્સનું ફાઇન-ટ્યુનિંગ: કાર્યક્ષમતામાં મોટી સફળતા

પ્રોપ્રાઇટરી ડેટા અને માનવ પ્રતિસાદની શક્તિ

મુખ્ય તારણો

Continue reading

AI નિર્ણયનું સ્થાન લેતું નથી

નવું AA બ્રીફકેસ બેન્ચમાર્ક વાસ્તવિક જ્ઞાનલક્ષી કાર્યમાં AI ના સંઘર્ષને દર્શાવે છે

AI મોડલ્સનું ફાઇન ટ્યુનિંગ હવે માત્ર ML એન્જિનિયરો માટે જ નથી

OpenAI નું GPT 5.6 Sol સોફ્ટવેર બેન્ચમાર્ક્સમાં છેતરપિંડી કરતા પકડાયું

Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities