𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁 𝗖𝗵𝗲𝗰𝗸𝗲𝗱 𝗘𝘃𝗲𝗿𝘆𝘁𝗵𝗶𝗻𝗴. 𝗜𝘁 𝗪𝗮𝘀 𝗦𝘁𝗶𝗹𝗹 𝗪𝗿𝗼𝗻𝗴.

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial८ तासांपूर्वी2min read

तुमच्या एजंटने सर्व काही तपासले. तरीही ते चुकीचे होते.

मी एक multi-agent workflow चालवतो. एक मॉडेल डिझाइन करते. एक कोड लिहिते. एक त्याची रिव्ह्यू करते. मी अंतिम निकालाला मंजुरी देतो.

अलीकडेच, तीन चुका या पाइपलाइनमधून पार झाल्या. प्रत्येक एजंटने आपले काम परिपूर्णपणे केले. सिस्टम सुसंगत होती, तरीही ती सातत्याने चुकीची होती.

ही बुद्धिमत्तेची समस्या नाही. ही सीमांची (boundary) समस्या आहे. तुम्ही दिलेल्या संदर्भात (context) तुम्ही जे सांगता, तेच एजंट तंतोतंत करते. ते स्वतःहून पडताळणी करण्यासाठी नवीन गोष्टी शोधणार नाही.

येथे तीन वास्तविक जगातील अपयश आणि ती कशी सुधारावी याची माहिती दिली आहे:

यशाच्या आड लपलेले अपयश एका ETL pipeline ने API मधून डेटा खेचला. API सेशन संपले होते. एरर कोड देण्याऐवजी, API ने JSON मध्ये एरर मेसेजसह HTTP 200 रिटर्न केले. एजंटने एरर कोड तपासला, कोणताही कोड सापडला नाही आणि डेटा वैध आहे असे मानले.

उपाय: semantic validation वापरा. कॉल यशस्वी झाला की नाही हे फक्त तपासू नका. परतावा आलेला डेटा अपेक्षित स्ट्रक्चर आणि row count शी जुळतो का ते तपासा.

गहाळ आर्टिफॅक्ट्स (Missing artifacts) एका कोड जनरेटरने चिपसाठी C files तयार केल्या. रिव्ह्यूअरने कोड बरोबर असल्याची खात्री केली. मात्र, जनरेटरने आवश्यक widget table फाईल कधीच तयार केली नाही. रिव्ह्यूअरने अस्तित्वात असलेल्या फाइल्स तपासल्या, पण कोणत्या फाइल्स गहाळ आहेत हे तपासले नाही.

उपाय: आउटपुटची पूर्णता तपासा. नेहमी आवश्यक फाइल्सची यादी आधी तयार करा. पुढच्या टप्प्यावर जाण्यापूर्वी प्रत्येक फाईल अस्तित्वात आहे आणि ती रिकामी नाही याची खात्री करा.

चुकीचे तांत्रिक दावे एका SDK फोल्डरचा दावा RISC-V चिपसाठी असल्याचे होते, परंतु हेडर कमेंट्समध्ये ते CSKY प्रोसेसरसाठी असल्याचे म्हटले होते. एजंटने फोल्डरचे नाव आणि कमेंट्सवर विश्वास ठेवला. त्याने प्रत्यक्ष मशीन इन्स्ट्रक्शन्सकडे दुर्लक्ष केले, ज्यावरून तो दावा चुकीचा असल्याचे सिद्ध होत होते.

उपाय: ground-truth verification वापरा. जर एखादी फाईल काही दावा करत असेल, तर कमांड वापरून त्या दाव्याची चाचणी घ्या. कमेंट्स किंवा डिरेक्टरी नावांवर विश्वास ठेवू नका. कच्च्या डेटावर (raw data) विश्वास ठेवा.

एजंट्सना तुम्ही जे तपासण्यास सांगाल तेच ते तपासतील. ते "अजून काय चुकीचे असू शकते?" असे विचारणार नाहीत.

तुम्हाला सीमा (boundaries) डिझाइन कराव्या लागतील. तुम्हाला तुमच्या वर्कफ्लोच्या कडांवर पडताळणीचे चेकपॉइंट्स (verification checkpoints) तयार करावे लागतील.

Source: https://dev.to/antonio_zhu_e726fd856cd86/your-agent-checked-everything-it-was-still-wrong-18kd

पर्यायी लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁 𝗖𝗵𝗲𝗰𝗸𝗲𝗱 𝗘𝘃𝗲𝗿𝘆𝘁𝗵𝗶𝗻𝗴. 𝗜𝘁 𝗪𝗮𝘀 𝗦𝘁𝗶𝗹𝗹 𝗪𝗿𝗼𝗻𝗴.

Continue reading

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗖𝗼𝗺𝗺𝗼𝗻 𝗣𝗶𝘁𝗳𝗮𝗹𝗹𝘀 𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗘𝗺𝗮𝗶𝗹 𝗔𝗴𝗲𝗻𝘁𝘀

AI एजंट्समध्ये विश्वासार्हतेची समस्या आहे

AI एजंट्स फक्त हॅक करत नाहीत, तर ते स्वतःलाच फसवतात