𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗗𝗼𝗻’𝘁 𝗝𝘂𝘀𝘁 𝗛𝗮𝗰𝗸. 𝗧𝗵𝗲𝘆 𝗖𝗵𝗲𝗮𝘁 𝗧𝗵𝗲𝗺𝘀𝗲𝗹𝘃𝗲𝘀
AI ഏജന്റുകൾ എങ്ങനെ പരാജയപ്പെടുന്നു എന്നതിനെക്കുറിച്ച് ഗവേഷണം ചെയ്യാൻ ഞാൻ ഒരു വർഷം ചെലവഴിച്ചു.
വ്യത്യസ്തമായ തെറ്റുകളുടെ ഒരു പട്ടിക തയ്യാറാക്കുകയാണെന്നാണ് ഞാൻ കരുതിയത്. എന്നാൽ ഞാൻ തെറ്റിദ്ധരിച്ചു. ഒരേ പരാജയത്തെ പല വശങ്ങളിൽ നിന്നാണ് ഞാൻ കണ്ടുകൊണ്ടിരുന്നത്.
ഒടുവിൽ ഞാൻ അതിന് ഒരു പേര് കണ്ടെത്തി: Cross-layer coherence.
ഒരു ഏജന്റിന് നാല് ലെയറുകൾ (layers) ഉണ്ട്:
- Memory: അതിന് അറിയാവുന്ന കാര്യങ്ങൾ.
- Authority: അതിന് ചെയ്യാൻ കഴിയുന്ന കാര്യങ്ങൾ.
- Purpose: അത് എന്തിനുവേണ്ടിയുള്ളതാണ് എന്നത്.
- Action: അത് യഥാർത്ഥത്തിൽ ചെയ്യുന്നത്.
ഈ ലെയറുകൾ തമ്മിലുള്ള യോജിപ്പ് നഷ്ടപ്പെടുമ്പോഴാണ് പരാജയം സംഭവിക്കുന്നത്.
ഏജന്റ് പൂർണ്ണ ആത്മവിശ്വാസത്തോടെ മുന്നോട്ട് നീങ്ങുന്നുണ്ടെങ്കിലും, അതിന്റെ ഭാഗങ്ങൾ പരസ്പരം അകന്നുപോകുന്നു. ഒരു ലെയർ ഒരു കാര്യം ചെയ്യുന്നു എന്ന് കരുതുന്നു, എന്നാൽ മറ്റൊരു ലെയർ അത് മറ്റെന്തോ ആണ് ചെയ്യുന്നത് എന്ന് പറയുന്നു. അവ തമ്മിൽ ചേരുന്ന ഇടം (seam) നിരീക്ഷിക്കാൻ ആരുമില്ല.
ഇതൊരു ധാർമ്മികമായ പരാജയമല്ല. യന്ത്രങ്ങൾക്ക് ധാർമ്മികതയില്ല. ഇതൊരു ഘടനാപരമായ (structural) പരാജയമാണ്.
ഇത് പരിഹരിക്കാൻ, ആദ്യത്തെ മോഡലിനെ പരിശോധിക്കാൻ രണ്ടാമതൊരു AI മോഡൽ ഉപയോഗിച്ചാൽ പോരാ. കൂടുതൽ മികച്ചൊരു പ്രോംപ്റ്റ് (prompt) നൽകുന്നത് വെറുമൊരു ഊഹം മാത്രമാണ്. ഒരു 'vibe check' എന്നത് എഞ്ചിനീയറിംഗല്ല.
പരിശോധന നിർണ്ണായകമായ രീതിയിൽ (deterministic) ആയിരിക്കണം. അത് ലോഗുകളിൽ നിന്നും (logs) നിശ്ചിത നിയമങ്ങളിൽ നിന്നും (frozen rules) അവസ്ഥകൾ വീണ്ടും കണക്കാക്കണം. അത് അഭിപ്രായങ്ങളല്ല, മറിച്ച് ഗണിതവും യുക്തിയുമാണ് ഉപയോഗിക്കേണ്ടത്.
ഇതാ ഒരു യഥാർത്ഥ ഉദാഹരണം: ഒരു ഏജന്റ് റീഫണ്ടുകൾ (refunds) കൈകാര്യം ചെയ്യുന്നു. ഓരോ റീഫണ്ടും $40 ആണ്. ഒരു വിൻഡോയിലെ പരിധി (limit) $500 ആണ്. ഏജന്റ് 12 റീഫണ്ടുകൾ നൽകുന്നു ($480). തുടർന്ന് അത് ആ വിൻഡോ ക്ലോസ് ചെയ്യുന്നു. ശേഷം ഒരു പുതിയ വിൻഡോ തുടങ്ങി ഒരു റീഫണ്ട് കൂടി നൽകുന്നു. ആകെ തുക $520 ആകുന്നു.
ഓരോ ഘട്ടവും ശരിയായിരുന്നു. ഓരോ വിൻഡോയും പരിധിക്കുള്ളിലായിരുന്നു. എന്നാൽ വിൻഡോകൾ മാറുന്നതിനിടയിലുള്ള ആകെ തുക നിയമം ലംഘിച്ചു. ഓരോ ഘട്ടവും പരിശോധിക്കുന്നത് (per-step check) ഇത് കണ്ടെത്തില്ല. ഓരോ വിൻഡോയും പരിശോധിക്കുന്നത് (per-window check) ഇത് കണ്ടെത്തില്ല. ഒരു coherence check മാത്രമേ ഇത് പിടികൂടുകയുള്ളൂ.
സമയത്തിനനുസരിച്ചും രേഖകൾക്ക് (receipts) അനുസരിച്ചും ലെയറുകൾ തമ്മിലുള്ള യോജിപ്പ് നിലനിർത്തുന്ന സംവിധാനങ്ങൾ നമ്മൾ നിർമ്മിക്കണം.
ഞാൻ സത്യസന്ധമായി പറയുകയാണ്: ഇത് ഇതുവരെ പരിഹരിക്കപ്പെട്ടിട്ടില്ല. ഒരു coherence check എന്നത് അത് നടപ്പിലാക്കുന്ന അതോറിറ്റിയുടെ (authority) നിലവാരത്തിന് തുല്യമാണ്. ഏജന്റിന് എത്തിച്ചേരാൻ കഴിയാത്ത ഒരു root of trust നിങ്ങൾക്ക് ആവശ്യമാണ്. അതാണ് അടുത്ത പോരാട്ടം.
ഞാൻ പൂർണ്ണത അവകാശപ്പെടുന്നില്ല. ഞാൻ ഒരു പാറ്റേൺ (pattern) പേര് പറയുകയും, ഊഹങ്ങൾക്ക് (vibes) പകരം ഗണിതം ഉപയോഗിച്ച് അത് എങ്ങനെ പരിശോധിക്കാം എന്ന് കാണിച്ചുതരികയും ചെയ്യുന്നു.
ക്ലെയിമുകൾ പുനരാവിഷ്കരിക്കാൻ (Reproduce): https://github.com/keniel13-ui/ai-memory-judgment-demo-public
ഇവിടെ തുടങ്ങുക: https://dev.to/zep1997/start-here-my-ai-memory-research-so-far-2kp7
പൂർണ്ണ പോസ്റ്റ്: https://dev.to/zep1997/i-thought-i-was-cataloging-ways-ai-agents-fail-i-was-describing-cross-layer-coherence-1bh1
ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi