AI Agents सिर्फ हैक नहीं करते। वे खुद को धोखा देते हैं

मैंने एक साल यह शोध करने में बिताया कि AI agents कैसे विफल होते हैं।

मुझे लगा कि मैं अलग-अलग गलतियों की एक सूची बना रहा हूँ। मैं गलत था। मैं एक ही विफलता को कई दृष्टिकोणों से देख रहा था।

अंततः मुझे इसके लिए एक नाम मिला: Cross-layer coherence।

एक agent के चार layers होते हैं:

विफलता तब होती है जब ये layers एक-दूसरे से सहमत होना बंद कर देते हैं।

Agent पूरे आत्मविश्वास के साथ आगे बढ़ता रहता है, लेकिन उसके हिस्से एक-दूसरे से दूर होते जा रहे होते हैं। एक layer सोचती है कि वह एक काम कर रही है, जबकि दूसरी layer कहती है कि वह कुछ और कर रही है। उस जोड़ (seam) पर कोई नज़र नहीं रख रहा होता जहाँ वे मिलते हैं।

यह कोई नैतिक विफलता नहीं है। मशीनों में कोई नैतिकता नहीं होती। यह एक संरचनात्मक (structural) विफलता है।

इसे ठीक करने के लिए, आप पहले वाले को चेक करने के लिए दूसरे AI model का उपयोग नहीं कर सकते। एक स्मार्ट prompt अभी भी केवल एक अनुमान ही है। 'Vibe check' इंजीनियरिंग नहीं है।

चेक deterministic होना चाहिए। इसे logs और frozen rules से state को फिर से compute करना चाहिए। इसे गणित और तर्क (logic) का उपयोग करना चाहिए, राय (opinions) का नहीं।

यहाँ एक वास्तविक उदाहरण है: एक agent refunds संभालता है। प्रत्येक refund $40 का है। प्रति window की सीमा $500 है। Agent 12 refunds जारी करता है ($480)। वह window बंद कर देता है। फिर वह एक नई window शुरू करता है और एक और refund जारी करता है। कुल राशि $520 है।

प्रत्येक व्यक्तिगत चरण ठीक था। प्रत्येक window सीमा के भीतर था। लेकिन window बंद होने के बाद का कुल योग नियम को तोड़ देता है। 'Per-step check' इसे मिस कर देता है। 'Per-window check' इसे मिस कर देता है। केवल एक coherence check ही इसे पकड़ पाता है।

हमें ऐसे सिस्टम बनाने चाहिए जहाँ layers समय के साथ और रसीदों (receipts) के विरुद्ध भी एक-दूसरे के साथ तालमेल (agreement) में रहें।

मैं ईमानदारी से कह रहा हूँ: यह अभी तक हल नहीं हुआ है। एक coherence check उतना ही अच्छा होता है जितनी उसे चलाने वाली authority। आपको विश्वास के एक ऐसे मूल (root of trust) की आवश्यकता है जहाँ तक agent नहीं पहुँच सकता। यही अगली लड़ाई है।

मैं पूर्णता (perfection) का दावा नहीं कर रहा हूँ। मैं एक पैटर्न का नाम दे रहा हूँ और दिखा रहा हूँ कि कैसे 'vibes' के बजाय गणित के साथ इसका परीक्षण किया जाए।

दावों को दोहराएं: https://github.com/keniel13-ui/ai-memory-judgment-demo-public

यहाँ से शुरू करें: https://dev.to/zep1997/start-here-my-ai-memory-research-so-far-2kp7

पूरा पोस्ट: https://dev.to/zep1997/i-thought-i-was-cataloging-ways-ai-agents-fail-i-was-describing-cross-layer-coherence-1bh1

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi