Kwa Nini Viwango vya Upimaji vya AI Vinapunguza Uwezo wa Wakala (Agents) kwa Njia ya Kimfumo
Mbinu za sasa za tathmini ya AI zinashindwa kunasa uwezo halisi wa mifano ya kisasa (frontier models), mara nyingi zikichukulia ukosefu wa bajeti ya kicompyuta kama ukosefu wa akili. Taasisi ya Usalama wa AI ya Uingereza (AISI) imefichua kuwa utendaji wa wakala wa AI si alama iliyofungwa, bali ni mchirizi wa ukuaji (scaling curve) unaopanda kwa kasi kadiri nguvu ya kicompyuta wakati wa majaribio (test-time compute) inavyoongezeka.
Mchirizi wa Uwezo-wa-Kicompyuta (The Compute-Capability Curve)
Matokeo makuu kutoka kwa utafiti wa AISI ni kwamba kiwango cha mafanikio cha wakala wa AI kimeunganishwa kwa karibu na "test-time compute"—kiwango cha nguvu ya usindikaji na token zinazoruhusiwa kutumiwa na wakala wakati akifanya kazi fulani. Watafiti wanapoweka kikomo cha bajeti ya kudumu kwenye tathmini, wanapima uwezo wa chini wa mfano badala ya uwezo wake wa juu zaidi.
Jambo hili linaonekana katika nyanja nyingi zenye hatari kubwa. Katika kazi za uhandisi wa programu zinazotumia viwango kama TerminalBench 2.0 na SWE-Bench Pro, viwango vya mafanikio viliongezeka kwa takriban 25% wakati bajeti ya token ilipoongezeka kutoka milioni moja hadi milioni kumi. Vivyo hivyo, kazi za hisabati na kitaaluma katika "Humanity's Last Exam" ziliona ongezeko la 22% wakati bajeti ilipofikia token milioni tano.
Sheria ya Nguvu (Power Law) ya Muda wa Kazi kati ya Binadamu na AI
Utafiti huo uliweka uhusiano wa moja kwa moja kati ya muda ambao mtaalamu wa binadamu anahitaji kwa kazi fulani na matumizi ya token yanayohitajika na wakala wa AI. Uhusiano huu unafuata sheria ya nguvu (power law): kazi inayomchukua binadamu dakika moja inagharimu wakala maelfu ya token, wakati kazi ya saa moja inagharimu mamilioni.
Hii inatengeneza upofu mkubwa katika majaribio ya sasa. Kwa mfano, kazi ya usalama wa mtandao ya AISI "The Last Ones" inahitaji takriban saa 20 za utaalamu wa binadamu. Hakuna mfano uliopimwa na taasisi hiyo ulioweza kutatua kazi hii kwa chini ya token milioni 30. Kwa kutumia tathmini za kawaida zenye bajeti ndogo, watafiti kwa uhalisia wanatenga kazi tata na muhimu zaidi kutoka katika mchakato wa upimaji.
Kuharakisha Maendeleo na Miundo Mitatu ya Maboresho
AISI inabainisha kuwa "uwanja wa muda" (time horizon) wa mifano ya kisasa—ugumu wa kazi wanazoweza kushughulikia—unapanuka kwa kasi zaidi kuliko ilivyodhaniwa hapo awali. Wakati makadiria ya awali yalipendekeza kuwa uwanja wa muda kwa kazi za mtandao unazidishwa mara mbili kila miezi 4.7 kwa bajeti ya kudumu ya token milioni 2.5, kasi hiyo inaongezeka sana katika bajeti kubwa zaidi. Katika token milioni 50, kasi ya kuzidishwa mara mbili inaongezeka hadi kila siku 40 hadi 50.
Mifano mipya zaidi (kama vile mfululizo wa GPT na Claude uliopimwa) inaonyesha maboresho katika vipimo vitatu mahususi:
- Ufikiaji (Reach): Uwezo wa kushughulikia kazi zinazozidi kuwa ngumu.
- Uaminifu (Reliability): Uwezo wa kutatua kazi ileile kwa uthabiti zaidi.
- Ufanisi (Efficiency): Uwezo wa kutatua kazi kwa kutumia token chache zaidi.
Athari kwa Usalama wa AI na Utekelezaji
Utafiti huu unabadilisha mfumo wa tathmini ya AI kutoka "alama za kudumu" kwenda "michoro inayozingatia kicompyuta" (compute-aware curves). Kwa watengenezaji na waanzilishi, hii inamaanisha kuwa manufaa ya mfano si tu kutokana na mafunzo yake, bali pia kutokana na kiasi cha inference compute inayotengwa wakati wa utekelezaji.
Kadiri gharama kwa kila token inavyozidi kushuka, uwezo ambao hapo awali ulionekana kutofanyika kiuchumi utakuwa wa kawaida. Kwa usalama na ulinzi wa AI, hii inamaanisha kuwa hatari zinazohusiana na mawakala huru (autonomous agents)—kama vile mashambulizi tata ya mtandao—zinaweza kupunguzwa thamani kwa kiasi kikubwa ikiwa wasimamizi na makampuni watategemea viwango vya kawaida vya bajeti ndogo.
Mambo Muhimu ya Kuzingatia
- Viwango vya upimaji vinapotosha: Bajeti za kudumu za token zinachukua utendaji wa chini wa mfano, hivyo kupunguza kwa njia ya kimfumo ukomo wa kile mawakala wa AI wanaoweza kufikia.
- Kicompyuta huongeza uwezo: Viwango vya mafanikio katika uhandisi wa programu na hisabati huongezeka sana kadiri bajeti ya test-time compute inavyoongezeka.
- Kasi ya "Kuzidishwa Mara Mbili" inaharakishwa: Katika bajeti kubwa za kicompyuta, kasi ambayo mifano ya kisasa inatawala kazi tata ni kubwa zaidi kuliko ilivyokadiriwa hapo awali.
