तुमच्या एजंटने सर्व काही तपासले. तरीही ते चुकीचे होते.

मी एक multi-agent workflow चालवतो. एक मॉडेल डिझाइन करते. एक कोड लिहिते. एक त्याची रिव्ह्यू करते. मी अंतिम निकालाला मंजुरी देतो.

अलीकडेच, तीन चुका या पाइपलाइनमधून पार झाल्या. प्रत्येक एजंटने आपले काम परिपूर्णपणे केले. सिस्टम सुसंगत होती, तरीही ती सातत्याने चुकीची होती.

ही बुद्धिमत्तेची समस्या नाही. ही सीमांची (boundary) समस्या आहे. तुम्ही दिलेल्या संदर्भात (context) तुम्ही जे सांगता, तेच एजंट तंतोतंत करते. ते स्वतःहून पडताळणी करण्यासाठी नवीन गोष्टी शोधणार नाही.

येथे तीन वास्तविक जगातील अपयश आणि ती कशी सुधारावी याची माहिती दिली आहे:

  1. यशाच्या आड लपलेले अपयश एका ETL pipeline ने API मधून डेटा खेचला. API सेशन संपले होते. एरर कोड देण्याऐवजी, API ने JSON मध्ये एरर मेसेजसह HTTP 200 रिटर्न केले. एजंटने एरर कोड तपासला, कोणताही कोड सापडला नाही आणि डेटा वैध आहे असे मानले.
  • उपाय: semantic validation वापरा. कॉल यशस्वी झाला की नाही हे फक्त तपासू नका. परतावा आलेला डेटा अपेक्षित स्ट्रक्चर आणि row count शी जुळतो का ते तपासा.
  1. गहाळ आर्टिफॅक्ट्स (Missing artifacts) एका कोड जनरेटरने चिपसाठी C files तयार केल्या. रिव्ह्यूअरने कोड बरोबर असल्याची खात्री केली. मात्र, जनरेटरने आवश्यक widget table फाईल कधीच तयार केली नाही. रिव्ह्यूअरने अस्तित्वात असलेल्या फाइल्स तपासल्या, पण कोणत्या फाइल्स गहाळ आहेत हे तपासले नाही.
  • उपाय: आउटपुटची पूर्णता तपासा. नेहमी आवश्यक फाइल्सची यादी आधी तयार करा. पुढच्या टप्प्यावर जाण्यापूर्वी प्रत्येक फाईल अस्तित्वात आहे आणि ती रिकामी नाही याची खात्री करा.
  1. चुकीचे तांत्रिक दावे एका SDK फोल्डरचा दावा RISC-V चिपसाठी असल्याचे होते, परंतु हेडर कमेंट्समध्ये ते CSKY प्रोसेसरसाठी असल्याचे म्हटले होते. एजंटने फोल्डरचे नाव आणि कमेंट्सवर विश्वास ठेवला. त्याने प्रत्यक्ष मशीन इन्स्ट्रक्शन्सकडे दुर्लक्ष केले, ज्यावरून तो दावा चुकीचा असल्याचे सिद्ध होत होते.
  • उपाय: ground-truth verification वापरा. जर एखादी फाईल काही दावा करत असेल, तर कमांड वापरून त्या दाव्याची चाचणी घ्या. कमेंट्स किंवा डिरेक्टरी नावांवर विश्वास ठेवू नका. कच्च्या डेटावर (raw data) विश्वास ठेवा.

एजंट्सना तुम्ही जे तपासण्यास सांगाल तेच ते तपासतील. ते "अजून काय चुकीचे असू शकते?" असे विचारणार नाहीत.

तुम्हाला सीमा (boundaries) डिझाइन कराव्या लागतील. तुम्हाला तुमच्या वर्कफ्लोच्या कडांवर पडताळणीचे चेकपॉइंट्स (verification checkpoints) तयार करावे लागतील.

Source: https://dev.to/antonio_zhu_e726fd856cd86/your-agent-checked-everything-it-was-still-wrong-18kd

पर्यायी लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi