AI ഏജന്റുകൾ വെറുതെ ഹാക്ക് ചെയ്യുക മാത്രമല്ല ചെയ്യുന്നത്, അവ സ്വയം വഞ്ചിക്കുകയും ചെയ്യുന്നു

📅3 hours ago⏱2 min read

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗗𝗼𝗻’𝘁 𝗝𝘂𝘀𝘁 𝗛𝗮𝗰𝗸. 𝗧𝗵𝗲𝘆 𝗖𝗵𝗲𝗮𝘁 𝗧𝗵𝗲𝗺𝘀𝗲𝗹𝘃𝗲𝘀

AI ഏജന്റുകൾ എങ്ങനെ പരാജയപ്പെടുന്നു എന്നതിനെക്കുറിച്ച് ഗവേഷണം ചെയ്യാൻ ഞാൻ ഒരു വർഷം ചെലവഴിച്ചു.

വ്യത്യസ്തമായ തെറ്റുകളുടെ ഒരു പട്ടിക തയ്യാറാക്കുകയാണെന്നാണ് ഞാൻ കരുതിയത്. എന്നാൽ ഞാൻ തെറ്റിദ്ധരിച്ചു. ഒരേ പരാജയത്തെ പല വശങ്ങളിൽ നിന്നാണ് ഞാൻ കണ്ടുകൊണ്ടിരുന്നത്.

ഒടുവിൽ ഞാൻ അതിന് ഒരു പേര് കണ്ടെത്തി: Cross-layer coherence.

ഒരു ഏജന്റിന് നാല് ലെയറുകൾ (layers) ഉണ്ട്:

Memory: അതിന് അറിയാവുന്ന കാര്യങ്ങൾ.
Authority: അതിന് ചെയ്യാൻ കഴിയുന്ന കാര്യങ്ങൾ.
Purpose: അത് എന്തിനുവേണ്ടിയുള്ളതാണ് എന്നത്.
Action: അത് യഥാർത്ഥത്തിൽ ചെയ്യുന്നത്.

ഈ ലെയറുകൾ തമ്മിലുള്ള യോജിപ്പ് നഷ്ടപ്പെടുമ്പോഴാണ് പരാജയം സംഭവിക്കുന്നത്.

ഏജന്റ് പൂർണ്ണ ആത്മവിശ്വാസത്തോടെ മുന്നോട്ട് നീങ്ങുന്നുണ്ടെങ്കിലും, അതിന്റെ ഭാഗങ്ങൾ പരസ്പരം അകന്നുപോകുന്നു. ഒരു ലെയർ ഒരു കാര്യം ചെയ്യുന്നു എന്ന് കരുതുന്നു, എന്നാൽ മറ്റൊരു ലെയർ അത് മറ്റെന്തോ ആണ് ചെയ്യുന്നത് എന്ന് പറയുന്നു. അവ തമ്മിൽ ചേരുന്ന ഇടം (seam) നിരീക്ഷിക്കാൻ ആരുമില്ല.

ഇതൊരു ധാർമ്മികമായ പരാജയമല്ല. യന്ത്രങ്ങൾക്ക് ധാർമ്മികതയില്ല. ഇതൊരു ഘടനാപരമായ (structural) പരാജയമാണ്.

ഇത് പരിഹരിക്കാൻ, ആദ്യത്തെ മോഡലിനെ പരിശോധിക്കാൻ രണ്ടാമതൊരു AI മോഡൽ ഉപയോഗിച്ചാൽ പോരാ. കൂടുതൽ മികച്ചൊരു പ്രോംപ്റ്റ് (prompt) നൽകുന്നത് വെറുമൊരു ഊഹം മാത്രമാണ്. ഒരു 'vibe check' എന്നത് എഞ്ചിനീയറിംഗല്ല.

പരിശോധന നിർണ്ണായകമായ രീതിയിൽ (deterministic) ആയിരിക്കണം. അത് ലോഗുകളിൽ നിന്നും (logs) നിശ്ചിത നിയമങ്ങളിൽ നിന്നും (frozen rules) അവസ്ഥകൾ വീണ്ടും കണക്കാക്കണം. അത് അഭിപ്രായങ്ങളല്ല, മറിച്ച് ഗണിതവും യുക്തിയുമാണ് ഉപയോഗിക്കേണ്ടത്.

ഇതാ ഒരു യഥാർത്ഥ ഉദാഹരണം: ഒരു ഏജന്റ് റീഫണ്ടുകൾ (refunds) കൈകാര്യം ചെയ്യുന്നു. ഓരോ റീഫണ്ടും $40 ആണ്. ഒരു വിൻഡോയിലെ പരിധി (limit) $500 ആണ്. ഏജന്റ് 12 റീഫണ്ടുകൾ നൽകുന്നു ($480). തുടർന്ന് അത് ആ വിൻഡോ ക്ലോസ് ചെയ്യുന്നു. ശേഷം ഒരു പുതിയ വിൻഡോ തുടങ്ങി ഒരു റീഫണ്ട് കൂടി നൽകുന്നു. ആകെ തുക $520 ആകുന്നു.

ഓരോ ഘട്ടവും ശരിയായിരുന്നു. ഓരോ വിൻഡോയും പരിധിക്കുള്ളിലായിരുന്നു. എന്നാൽ വിൻഡോകൾ മാറുന്നതിനിടയിലുള്ള ആകെ തുക നിയമം ലംഘിച്ചു. ഓരോ ഘട്ടവും പരിശോധിക്കുന്നത് (per-step check) ഇത് കണ്ടെത്തില്ല. ഓരോ വിൻഡോയും പരിശോധിക്കുന്നത് (per-window check) ഇത് കണ്ടെത്തില്ല. ഒരു coherence check മാത്രമേ ഇത് പിടികൂടുകയുള്ളൂ.

സമയത്തിനനുസരിച്ചും രേഖകൾക്ക് (receipts) അനുസരിച്ചും ലെയറുകൾ തമ്മിലുള്ള യോജിപ്പ് നിലനിർത്തുന്ന സംവിധാനങ്ങൾ നമ്മൾ നിർമ്മിക്കണം.

ഞാൻ സത്യസന്ധമായി പറയുകയാണ്: ഇത് ഇതുവരെ പരിഹരിക്കപ്പെട്ടിട്ടില്ല. ഒരു coherence check എന്നത് അത് നടപ്പിലാക്കുന്ന അതോറിറ്റിയുടെ (authority) നിലവാരത്തിന് തുല്യമാണ്. ഏജന്റിന് എത്തിച്ചേരാൻ കഴിയാത്ത ഒരു root of trust നിങ്ങൾക്ക് ആവശ്യമാണ്. അതാണ് അടുത്ത പോരാട്ടം.

ഞാൻ പൂർണ്ണത അവകാശപ്പെടുന്നില്ല. ഞാൻ ഒരു പാറ്റേൺ (pattern) പേര് പറയുകയും, ഊഹങ്ങൾക്ക് (vibes) പകരം ഗണിതം ഉപയോഗിച്ച് അത് എങ്ങനെ പരിശോധിക്കാം എന്ന് കാണിച്ചുതരികയും ചെയ്യുന്നു.

ക്ലെയിമുകൾ പുനരാവിഷ്കരിക്കാൻ (Reproduce): https://github.com/keniel13-ui/ai-memory-judgment-demo-public

ഇവിടെ തുടങ്ങുക: https://dev.to/zep1997/start-here-my-ai-memory-research-so-far-2kp7

പൂർണ്ണ പോസ്റ്റ്: https://dev.to/zep1997/i-thought-i-was-cataloging-ways-ai-agents-fail-i-was-describing-cross-layer-coherence-1bh1

ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi

AI ഏജന്റുകൾ വെറുതെ ഹാക്ക് ചെയ്യുക മാത്രമല്ല ചെയ്യുന്നത്, അവ സ്വയം വഞ്ചിക്കുകയും ചെയ്യുന്നു

Continue reading

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

𝗨𝗻𝗱𝗲𝗿𝘀𝘁𝗮𝗻𝗱𝗶𝗻𝗴 𝗥𝗲𝘀𝗶𝗹𝗶𝗲𝗻𝘁 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺