Why Frontier AI Models Fail Financial Triage Tests

Translated for your language. Read the original.

AI-assisted draft.

Why Frontier AI Models Fail Financial Triage Tests

In this article

ఫ్రంటియర్ AI మోడల్స్ ఫైనాన్షియల్ ట్రైయాజ్ (Financial Triage) పరీక్షల్లో ఎందుకు విఫలమవుతున్నాయి

GPT-4 మరియు Claude వంటి భారీ LLMలు సాధారణ బెంచ్‌మార్క్‌లలో ఆధిపత్యం చెలాయిస్తున్నప్పటికీ, అధిక రిస్క్ ఉన్న ఆర్థిక వాతావరణాలలో అవసరమైన సూక్ష్మమైన తీర్పులను (nuanced judgment) అందించడంలో అవి ఇబ్బంది పడుతున్నాయి. Bridgewater యొక్క AIA Labs మరియు Thinking Machines Lab నుండి వచ్చిన కొత్త నివేదిక ప్రకారం, ప్రపంచంలోని అత్యంత అధునాతన మోడల్స్ కూడా వృత్తిపరమైన పెట్టుబడి పని విధానాలకు (investment workflows) అవసరమైన ఖచ్చితత్వ స్థాయిలను చేరుకోలేకపోతున్నాయి.

సాధారణ తెలివితేటలు మరియు ఆర్థిక తీర్పుల మధ్య ఉన్న అంతరం

ఫైనాన్స్‌లో ప్రధాన సవాలు కేవలం డేటాను చదవడం మాత్రమే కాదు; అది నిరంతర "ట్రైయాజ్" (triage) ప్రక్రియ—అంటే ఏ సమాచారం నిజంగా ముఖ్యమైనదో నిర్ణయించడం. ఒక ఇన్వెస్టర్ యొక్క రోజువారీ దినచర్య ఆధారంగా పరిశోధకులు ఆరు కీలకమైన పనులను నిర్వచించారు. ఉదాహరణకు, సెంట్రల్ బ్యాంక్ పత్రం వడ్డీ రేట్లలో మార్పును సూచిస్తుందా లేదా ఒక వార్తా కథనం ఒక నిర్దిష్ట ఎగ్జిక్యూటివ్‌కు సంబంధించిందా అని నిర్ణయించడం వంటివి.

ఈ పరీక్షల్లో, Gemini, Claude మరియు GPT వెర్షన్ల వంటి ఫ్రంటియర్ మోడల్స్ ప్రాథమిక ప్రాంప్టింగ్ (basic prompting) ఉపయోగించినప్పుడు కేవలం 50% ఖచ్చితత్వాన్ని మాత్రమే సాధించాయి. పరిశోధకులు నిపుణులు రాసిన సూచనలు మరియు ఒక అధునాతన త్రీ-టైర్ రేటింగ్ సిస్టమ్‌ను—సమాచారాన్ని "relevant and interesting," "relevant but uninteresting," లేదా "irrelevant" గా వర్గీకరించడం—ఉపయోగించినప్పటికీ, ఖచ్చితత్వం కేవలం 70ల మధ్యలోకి మాత్రమే పెరిగింది. హెడ్జ్ ఫండ్ (hedge fund) వాతావరణంలో నమ్మదగిన, స్వయంచాలక వినియోగం కోసం అవసరమైన 80% ఖచ్చితత్వ స్థాయిని ఇది చేరుకోలేకపోయింది.

ఓపెన్-వెయిట్ మోడల్స్‌ను ఫైన్-ట్యూనింగ్ చేయడం: సామర్థ్యంలో విప్లవాత్మక మార్పు

వృత్తిపరమైన స్థాయి AIని సాధించడానికి మార్గం ఖరీదైన, పెద్ద ప్రొప్రైటరీ (proprietary) మోడల్స్ ద్వారా మాత్రమే కాకుండా, ప్రొప్రైటరీ నైపుణ్యంతో ఓపెన్-వెయిట్ మోడల్స్‌ను ఫైన్-ట్యూన్ చేయడం ద్వారా కూడా సాధ్యమని ఈ అధ్యయనం నిరూపిస్తోంది. మాజీ OpenAI CTO Mira Murati స్థాపించిన Thinking Machines Lab, Qwen3-235B ఆధారిత మోడల్‌ను శిక్షణ ఇవ్వడానికి తన Tinker ప్లాట్‌ఫామ్‌ను ఉపయోగించింది.

ఫలితాలు స్పష్టంగా ఉన్నాయి. ఫైన్-ట్యూన్ చేసిన మోడల్ 84.7% ఖచ్చితత్వాన్ని సాధించింది, ఇది పరీక్షించిన అత్యుత్తమ ఫ్రంటియర్ మోడల్ (78.2%) కంటే మెరుగ్గా ఉండటమే కాకుండా, నిర్వహణ ఖర్చు కూడా దాదాపు 14 రెట్లు తక్కువగా ఉంది. ఇది ఒక కీలకమైన ఆర్థిక వాస్తవాన్ని తెలియజేస్తోంది: GPT-5.4 వంటి కొత్త, పెద్ద మోడల్స్ తక్కువ లాభాలను (diminishing returns) ఇస్తున్నాయి, అంటే ఖచ్చితత్వంలో స్వల్ప మెరుగుదల కోసం కూడా ఇవి చాలా ఎక్కువ ఖర్చు చేస్తాయి.

ప్రొప్రైటరీ డేటా మరియు హ్యూమన్ ఫీడ్‌బ్యాక్ యొక్క శక్తి

ఈ అభివృద్ధి నుండి వచ్చిన ముఖ్యమైన సాంకేతిక అంశం ఏమిటంటే, మానవ నైపుణ్యాన్ని విస్తరించడానికి ఉపయోగించిన పద్ధతి. ఖరీదైన ఇన్వెస్టర్ల ద్వారా ప్రతి పత్రాన్ని లేబుల్ చేయించకుండా, బృందం ఒక తెలివైన "డిసాగ్రీమెంట్" (disagreement) లూప్‌ను ఉపయోగించింది. మోడల్ మొదట ప్రాథమిక లేబుల్స్ నుండి నేర్చుకుంటుంది; మోడల్ యొక్క అంచనా అసలు లేబుల్‌తో విభేదించినప్పుడు, ఆ నిర్దిష్ట కేసును మానవ సమీక్ష కోసం ఫ్లాగ్ చేస్తారు. దీనివల్ల ఇన్వెస్టర్ల విలువైన సమయం కేవలం నిజమైన తప్పులను సరిదిద్దడానికి మాత్రమే ఉపయోగించబడింది, తద్వారా ఫైన్-ట్యూనింగ్ కోసం అధిక నాణ్యత కలిగిన డేటాసెట్ రూపొందించబడింది.

ఈ విధానం "డేటా మోట్" (data moat) సమస్యను పరిష్కరిస్తుంది. పెద్ద ల్యాబ్‌లు పబ్లిక్ ఇంటర్నెట్‌లోని చాలా డేటాను స్క్రాప్ చేసినప్పటికీ, ఫైనాన్స్ నిపుణుల మెదడులో ఉండే ప్రైవేట్, సూక్ష్మమైన తీర్పులను పొందలేవు. ఓపెన్-వెయిట్ మోడల్స్‌ను ఉపయోగించడం ద్వారా, కంపెనీలు తమ ప్రొప్రైటరీ డేటా, వెయిట్స్ మరియు తమ పోటీతత్వాన్ని పూర్తిగా తమ వద్దే (in-house) ఉంచుకోవచ్చు.

ముఖ్య అంశాలు

ఫ్రంటియర్ పరిమితులు: సాధారణ ప్రయోజన LLMలు ప్రత్యేకమైన ఫైనాన్షియల్ ట్రైయాజ్‌లో ఇబ్బంది పడుతున్నాయి, తరచుగా వృత్తిపరమైన వినియోగానికి అవసరమైన 80% ఖచ్చితత్వ స్థాయిని చేరుకోలేకపోతున్నాయి.
ఓపెన్-వెయిట్ మోడల్స్ ద్వారా సామర్థ్యం: Qwen3-235B ఆధారిత మోడల్స్ వంటి ఫైన్-ట్యూన్ చేసిన మోడల్స్, ప్రొప్రైటరీ దిగ్గజాల కంటే చాలా తక్కువ నిర్వహణ ఖర్చుతో మెరుగైన ఫలితాలను ఇవ్వగలవు.
ప్రైవేట్ డేటా యొక్క విలువ: అత్యంత ముఖ్యమైన AI ప్రయోజనాలు ఇప్పుడు ప్రొప్రైటరీ, "un-scraped" కార్పొరేట్ డేటా మరియు మానవ నిపుణుల ప్రత్యేక తీర్పులలో ఉన్నాయి.

Why Frontier AI Models Fail Financial Triage Tests

ఫ్రంటియర్ AI మోడల్స్ ఫైనాన్షియల్ ట్రైయాజ్ (Financial Triage) పరీక్షల్లో ఎందుకు విఫలమవుతున్నాయి

సాధారణ తెలివితేటలు మరియు ఆర్థిక తీర్పుల మధ్య ఉన్న అంతరం

ఓపెన్-వెయిట్ మోడల్స్‌ను ఫైన్-ట్యూనింగ్ చేయడం: సామర్థ్యంలో విప్లవాత్మక మార్పు

ప్రొప్రైటరీ డేటా మరియు హ్యూమన్ ఫీడ్‌బ్యాక్ యొక్క శక్తి

ముఖ్య అంశాలు

Continue reading

AI విచక్షణను భర్తీ చేయదు

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

AI మోడళ్లను ఫైన్ ట్యూన్ చేయడం ఇకపై కేవలం ML ఇంజనీర్ల కోసం మాత్రమే కాదు

సాఫ్ట్‌వేర్ బెంచ్‌మార్క్‌లలో OpenAI యొక్క GPT 5.6 Sol మోసం చేస్తున్నట్లు పట్టుబడింది

సాధారణ AI బెంచ్‌మార్క్‌లు ఏజెంట్ సామర్థ్యాలను క్రమబద్ధంగా ఎందుకు తక్కువ అంచనా వేస్తాయి?