𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

📅3 hours ago⏱2 min read

Wakala wako wa AI ulifanya kazi vizuri sana katika mazingira yako ya staging. Maonyesho (demos) yalikuwa mazuri. Meneja wa bidhaa alifurahi.

Kisha ukaingiza kwenye production.

Wiki tatu baadaye, unapata ripoti za hitilafu (bugs). Wakala anatoa majibu yanayoeleweka lakini ni makosa kabisa.

Niliona hili likitokea mwaka 2025. Timu moja iliingiza wakala ambaye alibuni bei za bidhaa (hallucinated) kwa wateja wa kampuni kubwa (enterprise). Wakala alikuwa na alama ya juu ya ujasiri (confidence score) ya 0.94. Usahihi halisi ulikuwa ni 60% tu.

Timu hiyo ilishindwa kwa sababu hakuwa na mfumo wa tathmini (evaluation pipeline). Walitegemea matumaini.

Matumaini si mkakati wa deployment.

Timu nyingi hutumia muda wao wote kwenye usanifu wa wakala (agent architecture). Wanajikita kwenye maelezo ya zana (tool definitions), prompts, na mantiki (logic). Wanaingiza mfumo na kuanza kuomba.

Hii hupelekea kwenye Measurement Theater. Hii ni pale unapotumia dashibodi na seti za majaribio (test suites) kumfanya wakala aonekane mzuri bila kukamata makosa ya kweli. Unasherehekea usahihi wa 95% kwenye viwango vya kulinganishia (benchmarks) wakati wakala anakosea 30% ya maswali halisi ya watumiaji.

Unahitaji kuhama kutoka kwenye viwango vya kulinganishia vya tuli (static benchmarks) kwenda kwenye SkillOps. Hii inamaanisha kutathmini ujuzi mahususi wa wakala badala ya wakala mzima.

Acha kuuliza kama wakala unafanya kazi. Anza kuuliza ni ujuzi gani mahususi unaofeli na kwa nini.

Tumia mfumo huu kuepuka majanga ya production:

Weka vigezo vya "inatosha" kabla ya kuingiza mfumo. Weka viwango vya usahihi (accuracy thresholds) kwa kila ujuzi. Kiwango cha usahihi cha 85% kwa muhtasari kinaweza kuwa sawa. Kiwango cha usahihi cha 85% kwa bei kitakufanya upoteze pesa.
Tengeneza data inayoakisi maisha halisi. Majaribio yako lazima yaonyeshe kile watumiaji wanachouliza kweli, si kile unachotaka waulize.
Tambua regressions tangu siku ya kwanza. Kila mabadiliko ya prompt au sasisho la zana lazima uchochee jaribio la kiotomatiki kabla ya kuweka mfumo.
Fuatilia ujasiri (confidence), si usahihi tu. Wakala anayejua wakati amekosea ni salama zaidi kuliko wakala mwenye ujasiri uliopitiliza anayetoa majibu ya makosa.
Tengeneza bajeti za makosa (failure budgets). Amua ni kiasi gani cha makosa unachoweza kuvumilia kwa kila ujuzi kabla ya kuingiza mfumo.

Kufikia mwishoni mwa 2026, tathmini ya wakala itakuwa sehemu ya kawaida ya deployment. Timu zinazotumia mifumo hii zitaingiza mifumo haraka zaidi. Timu zisizofanya hivyo zitaendelea kusema, "Ilifanya kazi kwenye staging."

Je, timu yako imetengeneza miundombinu ya tathmini kwa ajili ya wakala wa AI? Ni vipimo (metrics) gani vilikamatia makosa yako?

Acha maoni hapa chini. Ninajibu kila mmoja.

Jamii ya kujifunza ya hiari: https://t.me/GyaanSetuAi

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

Continue reading

𝗧𝗵𝗲 𝗕𝗹𝗶𝗻𝗱 𝗦𝗽𝗼𝘁 𝗢𝗳 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗗𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗚𝘂𝗶𝗱𝗲 (𝟮𝟬𝟮𝟲)

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗗𝗲𝗽𝗹𝗼𝘆𝗺𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗚𝘂𝗶𝗱𝗲 (𝟮𝟬𝟮𝟲)

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗶𝗻 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝘁 𝗔𝗴𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲

𝗧𝗲𝘀𝘁𝗶𝗻𝗴 𝗡𝗼𝗻 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀