Wakala wa AI Hawadukui Tu. Wanajidanganya Wenyewe

📅3 hours ago⏱2 min read

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 Hawafanyi Tu Hacking. Wanajidanganya Wenyewe

Nilitumia mwaka mmoja nikifanya utafiti kuhusu jinsi AI agents zinavyofeli.

Nilidhani nilikuwa nikitengeneza orodha ya makosa tofauti. Nilikuwa nimekosea. Nilikuwa nikiiona hitilafu ile ile kutoka pande nyingi.

Hatimaye nilipata jina lake: Cross-layer coherence.

Agent ina tabaka nne:

Memory: Kile inachokijua.
Authority: Kile inachoweza kufanya.
Purpose: Kile inacholenga kufanya.
Action: Kile inachokifanya haswa.

Hitilafu hutokea wakati tabaka hizi zinapoacha kukubaliana.

Agent inaendelea kusonga mbele kwa ujasiri mkubwa, lakini sehemu zake zinatengana. Tabaka moja linadhani linafanya jambo moja, wakati tabaka lingine linasema linafanya jambo lingine. Hakuna kitu kinachokagua sehemu ambapo zinakutana.

Hii si hitilafu ya kimaadili. Mashine hazina maadili. Ni hitilafu ya kimuundo.

Ili kurekebisha hili, huwezi kutumia modeli nyingine ya AI kukagua ile ya kwanza. Prompt bora zaidi bado ni kubahatisha tu. Vibe check si uhandisi.

Ukaguzi lazima uwe wa kimahesabu (deterministic). Lazima upige hesabu upya hali (state) kutokana na logs na sheria zilizofungwa. Lazima utumie hisabati na mantiki, si maoni.

Hapa kuna mfano halisi: Agent inashughulikia marejesho (refunds). Kila marejesho ni $40. Kikomo kwa kila dirisha (window) ni $500. Agent inatoa marejesho 12 ($480). Inafunga dirisha. Kisha inaanza dirisha jipya na kutoa marejesho mmoja zaidi. Jumla ni $520.

Kila hatua ya mtu mmoja ilikuwa sawa. Kila dirisha lilikuwa chini ya kikomo. Lakini jumla iliyovuka ufungaji ilikiuka sheria. Ukaguzi wa kila hatua unakosa hili. Ukaguzi wa kila dirisha unakosa hili. Ni ukaguzi wa coherence pekee unaoweza kuukamata.

Lazima tujenge mifumo ambapo tabaka zinabaki kukubaliana kadiri muda unavyopita na kulingana na risiti (receipts).

Ninakuwa mkweli: hili halijatatuliwa. Ukaguzi wa coherence ni mzuri tu kulingana na authority inayouendesha. Unahitaji chanzo cha uaminifu (root of trust) ambacho agent hawezi kukifikia. Hiyo ndiyo vita inayofuata.

Sidai ukamilifu. Ninataja mfumo (pattern) na kuonyesha jinsi ya kuupima kwa hisabati badala ya vibes.

Rudisha madai haya: https://github.com/keniel13-ui/ai-memory-judgment-demo-public

Anza hapa: https://dev.to/zep1997/start-here-my-ai-memory-research-so-far-2kp7

Makala kamili: https://dev.to/zep1997/i-thought-i-was-cataloging-ways-ai-agents-fail-i-was-describing-cross-layer-coherence-1bh1

Jumuia ya kujifunza (hiari): https://t.me/GyaanSetuAi