Why Frontier AI Models Fail Financial Triage Tests

Translated for your language. Read the original.

AI-assisted draft.

Why Frontier AI Models Fail Financial Triage Tests

In this article

Kwa Nini Mifumo ya AI ya Kilele Inafeli Majaribio ya Upangaji wa Kifedha (Triage)

Ingawa LLM kubwa kama GPT-4 na Claude zinatawala vigezo vya jumla, zinapata shida kuiga uamuzi wa kina unaohitajika katika mazingira ya kifedha yenye hatari kubwa. Ripoti mpya kutoka AIA Labs ya Bridgewater na Thinking Machines Lab inafichua kuwa hata mifumo ya kisasa zaidi duniani inashindwa kufikia viwango vya usahihi vinavyohitajika kwa michakato ya uwekezaji ya kitaalamu.

Pengo Kati ya Akili ya Jumla na Uamuzi wa Kifedha

Changamoto kuu katika masuala ya kifedha si kusoma data tu; ni mtiririko wa mara kwa mara wa "triage" (upangaji)—kuamua ni taarifa gani ina umuhimu wa kweli. Watafiti walibainisha kazi sita muhimu kulingana na ratiba ya kila siku ya mwekezaji, kama vile kuamua ikiwa hati ya benki kuu inaashiria mabadiliko katika viwango vya riba au ikiwa kichwa cha habari cha habari kinahusiana na mtendaji fulani.

Katika majaribio haya, mifumo ya kilele kama Gemini, Claude, na matoleo ya GPT ilifikia usahihi wa takriban 50% tu wakati ikitumia maelekezo ya msingi (basic prompting). Hata wakati watafiti walitumia maelekezo yaliyoandikwa na wataalamu na mfumo tata wa daraja la ngazi tatu—ukipanga taarifa kama "inayohusika na inayovutia," "inayohusika lakini isiyovutia," au "isiyohusika"—usahihi ulipanda tu hadi katikati ya 70%. Hii ilikuwa chini ya kiwango cha usahihi cha 80% kinachohitajika kwa matumizi ya kiotomatiki yanayoaminika katika mazingira ya hedge fund.

Kurekebisha (Fine-Tuning) Mifumo ya Open-Weight: Mapinduzi ya Ufanisi

Utafiti huo unaonyesha kuwa njia ya kuelekea kwenye AI ya kiwango cha kitaalamu si lazima kupitia mifumo mikubwa zaidi na ya gharama kubwa zaidi ya umiliki binafsi, bali kupitia kurekebisha (fine-tuning) mifumo ya open-weight kwa kutumia utaalamu wa ndani. Thinking Machines Lab, iliyoanzishwa na aliyekuwa CTO wa OpenAI, Mira Murati, ilitumia jukwaa lake la Tinker kufundisha mfumo unaozingatia Qwen3-235B.

Matokeo yalikuwa ya wazi. Mfumo uliorekebishwa ulifikia usahihi wa 84.7%, ukifanya vizuri kuliko mfumo bora zaidi wa kilele uliopimwa (78.2%) huku ukiendesha kwa gharama ndogo karibu mara 14. Hii inaangazia ukweli muhimu wa kiuchumi: mifumo mipya na mikubwa zaidi kama GPT-5.4 inatoa faida ndogo zinazopungua, mara nyingi ikigharimu zaidi kwa maboresho madogo tu ya usahihi.

Nguvu ya Data ya Umiliki Binafsi na Maoni ya Binadamu

Jambo kuu la kiufundi kutoka kwa maendeleo haya ni mbinu iliyotumika kukuza utaalamu wa binadamu. Badala ya kuwa na wawekezaji wenye gharama kubwa wakitaja kila hati, timu ilitumia mzunguko wa "kutokubaliana" (disagreement loop) wenye akili. Mfumo kwanza ulijifunza kutokana na lebo za awali; wakati tathmini ya mfumo ilitofautiana na lebo ya awali, kesi hiyo mahususi ilionyeshwa kwa ajili ya mapitio ya binadamu. Hii ilihakikisha kuwa muda wa thamani wa mwekezaji ulitumika tu kusahihisha makosa halisi, na kutengeneza seti ya data ya hali ya juu kwa ajili ya fine-tuning.

Mtazamo huu unatatua tatizo la "data moat" (nguzo ya data). Wakati maabara kubwa zimekusanya (scraped) sehemu kubwa ya mtandao wa umma, zinakosa ufikiaji wa uamuzi wa siri na wa kina ulio ndani ya vichwa vya wataalamu wa fedha. Kwa kutumia mifumo ya open-weight, kampuni zinaweza kuweka data zao za umiliki, uzito wao (weights), na faida zao za ushindani ndani ya kampuni kabisa.

Mambo Muhimu ya Kuzingatia

Mapungufu ya Mifumo ya Kilele: LLM za matumizi ya jumla zinapata shida na triage maalum ya kifedha, mara nyingi zikishindwa kufikia kiwango cha usahihi cha 80% kinachohitajika kwa matumizi ya kitaalamu.
Ufanisi kupitia Mifumo ya Open-Weight: Mifumo iliyorekebishwa (fine-tuned), kama vile ile inayozingatia Qwen3-235B, inaweza kufanya vizuri kuliko majitu ya umiliki binafsi kwa sehemu ndogo sana ya gharama za uendeshaji.
Thamani ya Data ya Siri: Mafanikio makubwa zaidi ya AI sasa yapo katika data za kampuni za umiliki binafsi ambazo "hazijakusanywa" (un-scraped) na uamuzi maalum wa wataalamu wa binadamu.

Why Frontier AI Models Fail Financial Triage Tests

Kwa Nini Mifumo ya AI ya Kilele Inafeli Majaribio ya Upangaji wa Kifedha (Triage)

Pengo Kati ya Akili ya Jumla na Uamuzi wa Kifedha

Kurekebisha (Fine-Tuning) Mifumo ya Open-Weight: Mapinduzi ya Ufanisi

Nguvu ya Data ya Umiliki Binafsi na Maoni ya Binadamu

Mambo Muhimu ya Kuzingatia

Continue reading

AI Haiwezi Kuchukua Nafasi ya Uamuzi

Kipimo kipya cha AA Briefcase kinafunua mapambano ya AI katika kazi halisi za maarifa

Kurekebisha Mifumo ya AI (Fine Tuning) Sio kwa ajili ya Wahandisi wa ML pekee tena

GPT 5.6 Sol ya OpenAI Imegunduliwa Ikidanganya katika Vipimo vya Programu

Kwa nini Viwango vya Kawaida vya Upimaji wa AI Vinapunguza Thamani ya Uwezo wa Mawakala Kimfumo