आपके एजेंट ने सब कुछ चेक किया। फिर भी वह गलत था।
मैं एक multi-agent workflow चलाता हूँ। एक मॉडल डिज़ाइन करता है। एक कोड लिखता है। एक उसकी समीक्षा करता है। मैं अंतिम परिणाम को मंजूरी देता हूँ।
हाल ही में, तीन विफलताएं इस पाइपलाइन से निकल गईं। प्रत्येक एजेंट ने अपना काम पूरी तरह से किया। सिस्टम सुसंगत था, फिर भी वह लगातार गलत था।
यह बुद्धिमत्ता (intelligence) की समस्या नहीं है। यह सीमा (boundary) की समस्या है। एक एजेंट ठीक वही करता है जो आप उसे दिए गए संदर्भ (context) के भीतर करने के लिए कहते हैं। वह सत्यापन (verify) करने के लिए अपने आप नई चीज़ें नहीं खोजेगा।
यहाँ तीन वास्तविक दुनिया की विफलताएं और उन्हें ठीक करने के तरीके दिए गए हैं:
- विफलता को छिपाती सफलता एक ETL पाइपलाइन ने एक API से डेटा निकाला। API सेशन समाप्त हो गया था। एरर कोड के बजाय, API ने JSON के अंदर एक एरर मैसेज के साथ HTTP 200 लौटाया। एजेंट ने एरर कोड की जाँच की, कोई नहीं मिला, और मान लिया कि डेटा वैध था।
- समाधान: semantic validation का उपयोग करें। केवल यह न जाँचें कि कॉल सफल रही या नहीं। यह जाँचें कि क्या लौटाया गया डेटा अपेक्षित संरचना (structure) और रो काउंट (row count) से मेल खाता है।
- गायब आर्टिफैक्ट्स (Missing artifacts) एक कोड जनरेटर ने एक चिप के लिए C फ़ाइलें बनाईं। रिव्यूअर ने पुष्टि की कि कोड सही था। हालाँकि, जनरेटर ने आवश्यक widget table फ़ाइल कभी नहीं बनाई। रिव्यूअर ने मौजूद फ़ाइलों की जाँच की लेकिन गायब फ़ाइलों की जाँच नहीं की।
- समाधान: आउटपुट की पूर्णता (completeness) सत्यापित करें। हमेशा पहले आवश्यक फ़ाइलों की सूची बनाएं। अगले चरण पर जाने से पहले पुष्टि करें कि प्रत्येक फ़ाइल मौजूद है और खाली नहीं है।
- गलत तकनीकी दावे एक SDK फ़ोल्डर ने दावा किया कि वह RISC-V चिप के लिए है, लेकिन हेडर कमेंट्स में कहा गया कि यह CSKY प्रोसेसर के लिए है। एजेंट ने फ़ोल्डर के नाम और कमेंट्स पर भरोसा किया। उसने वास्तविक मशीन निर्देशों (machine instructions) को नज़रअंदाज़ कर दिया जो यह साबित करते थे कि दावा गलत था।
- समाधान: ground-truth verification का उपयोग करें। यदि कोई फ़ाइल कोई दावा करती है, तो उस दावे का कमांड के साथ परीक्षण करें। कमेंट्स या डायरेक्टरी नामों पर भरोसा न करें। कच्चे डेटा (raw data) पर भरोसा करें।
एजेंट वही सत्यापित करेंगे जो आप उन्हें करने के लिए कहेंगे। वे यह नहीं पूछेंगे, "और क्या गलत हो सकता है?"
आपको सीमाओं (boundaries) को डिज़ाइन करना होगा। आपको अपने वर्कफ़्लो के किनारों पर सत्यापन चेकपॉइंट्स (verification checkpoints) बनाने होंगे।
स्रोत: https://dev.to/antonio_zhu_e726fd856cd86/your-agent-checked-everything-it-was-still-wrong-18kd
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi