AI ఏజెంట్లు కేవలం హ్యాక్ చేయడమే కాదు, అవి తమను తాము మోసం చేసుకుంటాయి

📅3 hours ago⏱2 min read

AI ఏజెంట్లు కేవలం హ్యాక్ చేయవు. అవి తమను తాము మోసం చేసుకుంటాయి

AI ఏజెంట్లు ఎలా విఫలమవుతాయో పరిశోధించడానికి నేను ఒక సంవత్సరం సమయం కేటాయించాను.

నేను వేర్వేరు తప్పుల జాబితాను తయారు చేస్తున్నానని అనుకున్నాను. కానీ నేను పొరబడ్డాను. నేను ఒకే వైఫల్యాన్ని అనేక కోణాల్లో చూస్తున్నాను.

చివరకు నేను దానికి ఒక పేరు కనుగొన్నాను: Cross-layer coherence.

ఒక ఏజెంట్‌కు నాలుగు పొరలు (layers) ఉంటాయి:

Memory: దానికి తెలిసినవి.
Authority: అది చేయగలిగినవి.
Purpose: అది దేని కోసం ఉద్దేశించబడింది.
Action: అది వాస్తవంగా చేసేది.

ఈ పొరలు ఒకదానితో ఒకటి ఏకీభవించడం మానేసినప్పుడు వైఫల్యం సంభవిస్తుంది.

ఏజెంట్ పూర్తి నమ్మకంతో ముందుకు సాగుతూనే ఉంటుంది, కానీ దాని భాగాలు విడిపోతుంటాయి. ఒక పొర తాను ఒక పని చేస్తున్నానని అనుకుంటే, మరొక పొర అది వేరే పని చేస్తోందని చెబుతుంది. అవి కలిసే చోట (seam) ఏదీ పర్యవేక్షించదు.

ఇది నైతిక వైఫల్యం కాదు. యంత్రాలకు నైతికత ఉండదు. ఇది ఒక నిర్మాణాత్మక వైఫల్యం (structural failure).

దీనిని సరిదిద్దడానికి, మొదటి దానిని తనిఖీ చేయడానికి మీరు రెండవ AI మోడల్‌ను ఉపయోగించలేరు. మరింత తెలివైన ప్రాంప్ట్ (prompt) కూడా కేవలం ఒక ఊహ మాత్రమే. ఒక 'vibe check' అనేది ఇంజనీరింగ్ కాదు.

తనిఖీ అనేది డెటెర్మినಿಸ್ಟిక్ (deterministic) గా ఉండాలి. అది లాగ్‌లు (logs) మరియు స్థిరమైన నియమాల (frozen rules) నుండి స్థితిని (state) తిరిగి లెక్కించాలి. అది అభిప్రాయాలను కాకుండా, గణితం మరియు తర్కాన్ని ఉపయోగించాలి.

ఇక్కడ ఒక నిజమైన ఉదాహరణ ఉంది: ఒక ఏజెంట్ రీఫండ్‌లను (refunds) నిర్వహిస్తుంది. ప్రతి రీఫండ్ $40. ఒక విండో పరిమితి $500. ఏజెంట్ 12 రీఫండ్‌లను ($480) జారీ చేస్తుంది. అది ఆ విండోను మూసివేస్తుంది. ఆ తర్వాత అది కొత్త విండోను ప్రారంభించి, మరో రీఫండ్‌ను జారీ చేస్తుంది. మొత్తం $520 అవుతుంది.

ప్రతి వ్యక్తిగత దశ సరిగానే ఉంది. ప్రతి విండో పరిమితి లోపే ఉంది. కానీ విండో మూసివేత తర్వాత మొత్తం పరిమితిని దాటి నిబంధనను ఉల్లంఘించింది. ప్రతి దశలో చేసే తనిఖీ (per-step check) దీనిని గుర్తించలేదు. ప్రతి విండోలో చేసే తనిఖీ (per-window check) కూడా దీనిని గుర్తించలేదు. కేవలం కోహెరెన్స్ చెక్ (coherence check) మాత్రమే దీనిని పట్టుకోగలదు.

కాలక్రమేణా మరియు రశీదుల (receipts) ఆధారంగా పొరలు ఒకదానితో ఒకటి ఏకీభవిస్తూ ఉండే వ్యవస్థలను మనం నిర్మించాలి.

నేను నిజాయితీగా చెబుతున్నాను: ఇది ఇంకా పరిష్కరించబడలేదు. కోహెరెన్స్ చెక్ అనేది దానిని నడిపించే అథారిటీ (authority) ఎంత సమర్థవంతంగా ఉంటే అంత బాగుంటుంది. ఏజెంట్ చేరుకోలేని ఒక 'root of trust' మీకు అవసరం. అదే తదుపరి పోరాటం.

నేను పరిపూర్ణతను క్లెయిమ్ చేయడం లేదు. నేను ఒక పద్ధతిని (pattern) గుర్తించి, దానిని కేవలం ఊహలతో కాకుండా గణితంతో ఎలా పరీక్షించాలో చూపుతున్నాను.

క్లెయిమ్‌లను పునరుత్పత్తి చేయండి: https://github.com/keniel13-ui/ai-memory-judgment-demo-public

ఇక్కడ ప్రారంభించండి: https://dev.to/zep1997/start-here-my-ai-memory-research-so-far-2kp7

పూర్తి పోస్ట్: https://dev.to/zep1997/i-thought-i-was-cataloging-ways-ai-agents-fail-i-was-describing-cross-layer-coherence-1bh1

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi

AI ఏజెంట్లు కేవలం హ్యాక్ చేయడమే కాదు, అవి తమను తాము మోసం చేసుకుంటాయి

Continue reading

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

𝗨𝗻𝗱𝗲𝗿𝘀𝘁𝗮𝗻𝗱𝗶𝗻𝗴 𝗥𝗲𝘀𝗶𝗹𝗶𝗲𝗻𝘁 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

AI ఏజెంట్లకు విశ్వసనీయత సమస్య ఉంది