AI ఏజెంట్లు కేవలం హ్యాక్ చేయవు. అవి తమను తాము మోసం చేసుకుంటాయి
AI ఏజెంట్లు ఎలా విఫలమవుతాయో పరిశోధించడానికి నేను ఒక సంవత్సరం సమయం కేటాయించాను.
నేను వేర్వేరు తప్పుల జాబితాను తయారు చేస్తున్నానని అనుకున్నాను. కానీ నేను పొరబడ్డాను. నేను ఒకే వైఫల్యాన్ని అనేక కోణాల్లో చూస్తున్నాను.
చివరకు నేను దానికి ఒక పేరు కనుగొన్నాను: Cross-layer coherence.
ఒక ఏజెంట్కు నాలుగు పొరలు (layers) ఉంటాయి:
- Memory: దానికి తెలిసినవి.
- Authority: అది చేయగలిగినవి.
- Purpose: అది దేని కోసం ఉద్దేశించబడింది.
- Action: అది వాస్తవంగా చేసేది.
ఈ పొరలు ఒకదానితో ఒకటి ఏకీభవించడం మానేసినప్పుడు వైఫల్యం సంభవిస్తుంది.
ఏజెంట్ పూర్తి నమ్మకంతో ముందుకు సాగుతూనే ఉంటుంది, కానీ దాని భాగాలు విడిపోతుంటాయి. ఒక పొర తాను ఒక పని చేస్తున్నానని అనుకుంటే, మరొక పొర అది వేరే పని చేస్తోందని చెబుతుంది. అవి కలిసే చోట (seam) ఏదీ పర్యవేక్షించదు.
ఇది నైతిక వైఫల్యం కాదు. యంత్రాలకు నైతికత ఉండదు. ఇది ఒక నిర్మాణాత్మక వైఫల్యం (structural failure).
దీనిని సరిదిద్దడానికి, మొదటి దానిని తనిఖీ చేయడానికి మీరు రెండవ AI మోడల్ను ఉపయోగించలేరు. మరింత తెలివైన ప్రాంప్ట్ (prompt) కూడా కేవలం ఒక ఊహ మాత్రమే. ఒక 'vibe check' అనేది ఇంజనీరింగ్ కాదు.
తనిఖీ అనేది డెటెర్మినಿಸ್ಟిక్ (deterministic) గా ఉండాలి. అది లాగ్లు (logs) మరియు స్థిరమైన నియమాల (frozen rules) నుండి స్థితిని (state) తిరిగి లెక్కించాలి. అది అభిప్రాయాలను కాకుండా, గణితం మరియు తర్కాన్ని ఉపయోగించాలి.
ఇక్కడ ఒక నిజమైన ఉదాహరణ ఉంది: ఒక ఏజెంట్ రీఫండ్లను (refunds) నిర్వహిస్తుంది. ప్రతి రీఫండ్ $40. ఒక విండో పరిమితి $500. ఏజెంట్ 12 రీఫండ్లను ($480) జారీ చేస్తుంది. అది ఆ విండోను మూసివేస్తుంది. ఆ తర్వాత అది కొత్త విండోను ప్రారంభించి, మరో రీఫండ్ను జారీ చేస్తుంది. మొత్తం $520 అవుతుంది.
ప్రతి వ్యక్తిగత దశ సరిగానే ఉంది. ప్రతి విండో పరిమితి లోపే ఉంది. కానీ విండో మూసివేత తర్వాత మొత్తం పరిమితిని దాటి నిబంధనను ఉల్లంఘించింది. ప్రతి దశలో చేసే తనిఖీ (per-step check) దీనిని గుర్తించలేదు. ప్రతి విండోలో చేసే తనిఖీ (per-window check) కూడా దీనిని గుర్తించలేదు. కేవలం కోహెరెన్స్ చెక్ (coherence check) మాత్రమే దీనిని పట్టుకోగలదు.
కాలక్రమేణా మరియు రశీదుల (receipts) ఆధారంగా పొరలు ఒకదానితో ఒకటి ఏకీభవిస్తూ ఉండే వ్యవస్థలను మనం నిర్మించాలి.
నేను నిజాయితీగా చెబుతున్నాను: ఇది ఇంకా పరిష్కరించబడలేదు. కోహెరెన్స్ చెక్ అనేది దానిని నడిపించే అథారిటీ (authority) ఎంత సమర్థవంతంగా ఉంటే అంత బాగుంటుంది. ఏజెంట్ చేరుకోలేని ఒక 'root of trust' మీకు అవసరం. అదే తదుపరి పోరాటం.
నేను పరిపూర్ణతను క్లెయిమ్ చేయడం లేదు. నేను ఒక పద్ధతిని (pattern) గుర్తించి, దానిని కేవలం ఊహలతో కాకుండా గణితంతో ఎలా పరీక్షించాలో చూపుతున్నాను.
క్లెయిమ్లను పునరుత్పత్తి చేయండి: https://github.com/keniel13-ui/ai-memory-judgment-demo-public
ఇక్కడ ప్రారంభించండి: https://dev.to/zep1997/start-here-my-ai-memory-research-so-far-2kp7
పూర్తి పోస్ట్: https://dev.to/zep1997/i-thought-i-was-cataloging-ways-ai-agents-fail-i-was-describing-cross-layer-coherence-1bh1
ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi