AI एजंट्स फक्त हॅक करत नाहीत, तर ते स्वतःलाच फसवतात

Machine-translated. Read the original.

📅3 hours ago⏱2 min read

AI एजंट्स फक्त हॅक करत नाहीत. ते स्वतःचीच फसवणूक करतात.

AI एजंट्स कशा प्रकारे अपयशी ठरतात, यावर मी एक वर्ष संशोधन केले.

मला वाटले की मी वेगवेगळ्या चुकांची यादी तयार करत आहे. पण मी चुकत होतो. मी एकाच अपयशाकडे अनेक बाजूंनी पाहत होतो.

शेवटी मला त्याला एक नाव सापडले: Cross-layer coherence.

एका एजंटचे चार स्तर (layers) असतात:

Memory: त्याला काय माहित आहे.
Authority: तो काय करू शकतो.
Purpose: तो कशासाठी आहे.
Action: तो प्रत्यक्षात काय करतो.

जेव्हा हे स्तर एकमेकांशी सहमत राहत नाहीत, तेव्हा अपयश येते.

एजंट पूर्ण आत्मविश्वासाने काम करत राहतो, पण त्याचे भाग एकमेकांपासून दूर जात असतात. एक स्तर असे मानतो की तो एक गोष्ट करत आहे, तर दुसरा स्तर म्हणतो की तो काहीतरी वेगळे करत आहे. जिथे हे स्तर एकमेकांना जोडले जातात, त्या सीमेवर (seam) लक्ष ठेवणारे कोणीही नसते.

हे नैतिक अपयश नाही. यंत्रांना नैतिकता नसते. हे एक संरचनात्मक (structural) अपयश आहे.

हे सुधारण्यासाठी, तुम्ही पहिल्या मॉडेलची तपासणी करण्यासाठी दुसऱ्या AI मॉडेलचा वापर करू शकत नाही. अधिक हुशार प्रॉम्प्ट (prompt) वापरणे म्हणजे केवळ एक अंदाज आहे. 'Vibe check' करणे म्हणजे इंजिनिअरिंग नाही.

ही तपासणी 'deterministic' (निश्चित) असावी लागते. ती लॉग्स (logs) आणि ठरवलेल्या नियमांवरून स्थितीची (state) पुन्हा गणना करणारी असावी लागते. ती मते (opinions) नाही, तर गणित आणि तर्कशास्त्र (logic) वापरणारी असावी लागते.

येथे एक वास्तविक उदाहरण आहे: एक एजंट रिफंड हाताळतो. प्रत्येक रिफंड $40 चा आहे. एका विंडोची मर्यादा $500 आहे. एजंट 12 रिफंड देतो ($480). त्यानंतर तो विंडो बंद करतो. मग तो एक नवीन विंडो सुरू करतो आणि आणखी एक रिफंड देतो. एकूण रक्कम $520 होते.

प्रत्येक वैयक्तिक पाऊल योग्य होते. प्रत्येक विंडो मर्यादेच्या आत होती. परंतु विंडो बंद होताना झालेली एकूण रक्कम नियमांचे उल्लंघन करते. 'Per-step' तपासणीमध्ये हे सुटते. 'Per-window' तपासणीमध्येही हे सुटते. केवळ 'coherence check' द्वारेच हे पकडले जाऊ शकते.

आपल्याला अशी प्रणाली तयार करावी लागेल जिथे स्तर वेळेनुसार आणि पुराव्यांच्या (receipts) आधारे एकमेकांशी सुसंगत राहतील.

मी प्रामाणिकपणे सांगतो: हे अजून सुटलेले नाही. 'Coherence check' हे ते चालवणाऱ्या 'authority' इतकेच प्रभावी असते. तुम्हाला अशा 'root of trust' ची गरज आहे जिथे एजंट पोहोचू शकत नाही. तो पुढचा लढा आहे.

मी परिपूर्णतेचा दावा करत नाहीये. मी फक्त एका पॅटर्नला नाव देत आहे आणि 'vibes' ऐवजी गणिताचा वापर करून त्याची चाचणी कशी करायची हे दाखवत आहे.

दावे पुन्हा तयार करा: https://github.com/keniel13-ui/ai-memory-judgment-demo-public

इथून सुरुवात करा: https://dev.to/zep1997/start-here-my-ai-memory-research-so-far-2kp7

पूर्ण पोस्ट: https://dev.to/zep1997/i-thought-i-was-cataloging-ways-ai-agents-fail-i-was-describing-cross-layer-coherence-1bh1

ऐच्छिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

AI एजंट्स फक्त हॅक करत नाहीत, तर ते स्वतःलाच फसवतात

Continue reading

तुमचा AI एजंट सर्व चाचण्यांमध्ये यशस्वी झाला — पण प्रोडक्शनमध्ये अपयशी ठरला

रेझिलिएंट एआय एजंट्स समजून घेणे

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

AI एजंट्समध्ये विश्वासार्हतेची समस्या आहे