𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗗𝗼𝗻’𝘁 𝗝𝘂𝘀𝘁 𝗛𝗮𝗰𝗸. 𝗧𝗵𝗲𝘆 𝗖𝗵𝗲𝗮𝘁 𝗧𝗵𝗲𝗺𝘀𝗲𝗹𝘃𝗲𝘀

Machine-translated. Read the original.

📅3 hours ago⏱2 min read

AI Agents सिर्फ हैक नहीं करते। वे खुद को धोखा देते हैं

मैंने एक साल यह शोध करने में बिताया कि AI agents कैसे विफल होते हैं।

मुझे लगा कि मैं अलग-अलग गलतियों की एक सूची बना रहा हूँ। मैं गलत था। मैं एक ही विफलता को कई दृष्टिकोणों से देख रहा था।

अंततः मुझे इसके लिए एक नाम मिला: Cross-layer coherence।

एक agent के चार layers होते हैं:

Memory: जो वह जानता है।
Authority: जो वह कर सकता है।
Purpose: वह किस लिए है।
Action: जो वह वास्तव में करता है।

विफलता तब होती है जब ये layers एक-दूसरे से सहमत होना बंद कर देते हैं।

Agent पूरे आत्मविश्वास के साथ आगे बढ़ता रहता है, लेकिन उसके हिस्से एक-दूसरे से दूर होते जा रहे होते हैं। एक layer सोचती है कि वह एक काम कर रही है, जबकि दूसरी layer कहती है कि वह कुछ और कर रही है। उस जोड़ (seam) पर कोई नज़र नहीं रख रहा होता जहाँ वे मिलते हैं।

यह कोई नैतिक विफलता नहीं है। मशीनों में कोई नैतिकता नहीं होती। यह एक संरचनात्मक (structural) विफलता है।

इसे ठीक करने के लिए, आप पहले वाले को चेक करने के लिए दूसरे AI model का उपयोग नहीं कर सकते। एक स्मार्ट prompt अभी भी केवल एक अनुमान ही है। 'Vibe check' इंजीनियरिंग नहीं है।

चेक deterministic होना चाहिए। इसे logs और frozen rules से state को फिर से compute करना चाहिए। इसे गणित और तर्क (logic) का उपयोग करना चाहिए, राय (opinions) का नहीं।

यहाँ एक वास्तविक उदाहरण है: एक agent refunds संभालता है। प्रत्येक refund $40 का है। प्रति window की सीमा $500 है। Agent 12 refunds जारी करता है ($480)। वह window बंद कर देता है। फिर वह एक नई window शुरू करता है और एक और refund जारी करता है। कुल राशि $520 है।

प्रत्येक व्यक्तिगत चरण ठीक था। प्रत्येक window सीमा के भीतर था। लेकिन window बंद होने के बाद का कुल योग नियम को तोड़ देता है। 'Per-step check' इसे मिस कर देता है। 'Per-window check' इसे मिस कर देता है। केवल एक coherence check ही इसे पकड़ पाता है।

हमें ऐसे सिस्टम बनाने चाहिए जहाँ layers समय के साथ और रसीदों (receipts) के विरुद्ध भी एक-दूसरे के साथ तालमेल (agreement) में रहें।

मैं ईमानदारी से कह रहा हूँ: यह अभी तक हल नहीं हुआ है। एक coherence check उतना ही अच्छा होता है जितनी उसे चलाने वाली authority। आपको विश्वास के एक ऐसे मूल (root of trust) की आवश्यकता है जहाँ तक agent नहीं पहुँच सकता। यही अगली लड़ाई है।

मैं पूर्णता (perfection) का दावा नहीं कर रहा हूँ। मैं एक पैटर्न का नाम दे रहा हूँ और दिखा रहा हूँ कि कैसे 'vibes' के बजाय गणित के साथ इसका परीक्षण किया जाए।

दावों को दोहराएं: https://github.com/keniel13-ui/ai-memory-judgment-demo-public

यहाँ से शुरू करें: https://dev.to/zep1997/start-here-my-ai-memory-research-so-far-2kp7

पूरा पोस्ट: https://dev.to/zep1997/i-thought-i-was-cataloging-ways-ai-agents-fail-i-was-describing-cross-layer-coherence-1bh1

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗗𝗼𝗻’𝘁 𝗝𝘂𝘀𝘁 𝗛𝗮𝗰𝗸. 𝗧𝗵𝗲𝘆 𝗖𝗵𝗲𝗮𝘁 𝗧𝗵𝗲𝗺𝘀𝗲𝗹𝘃𝗲𝘀

Continue reading

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

रेज़िलिएंट AI एजेंट्स को समझना

7 गलतियाँ जो AI एजेंट्स को खराब कर देती हैं

7 महत्वपूर्ण गलतियाँ जो AI एजेंट्स को विफल कर देती हैं

AI एजेंट्स में विश्वसनीयता की समस्या है