केवळ लाइव्ह मॉडेलच शिकवू शकणारे ६ बग्स (Bugs)

ऑफलाइन चाचण्या आवश्यक आहेत. पण त्या पुरेशा नाहीत.

मी पेरू मधील पर्यावरणीय अनुपालनावर (environmental compliance) लक्ष ठेवण्यासाठी AgentOps Debugger तयार केले. रेकॉर्ड्स शोधण्यासाठी आणि अहवाल लिहिण्यासाठी ते Qwen Cloud वरील Qwen-plus वापरते.

मी ही प्रणाली 'ऑफलाइन-फर्स्ट' (offline-first) पद्धतीने डिझाइन केली होती. माझ्या ३१५ चाचण्या कोणत्याही नेटवर्क कॉलशिवाय पूर्ण झाल्या. सर्व चाचण्या यशस्वी झाल्या. परंतु, जेव्हा मी Alibaba Cloud वरील लाइव्ह मॉडेलवर स्विच केले, तेव्हा ही प्रणाली कोलमडली.

कोड व्यवस्थित होता. समस्या मॉडेलच्या आउटपुटमध्ये होती.

वास्तविक जगातील मॉडेलच्या अपयशातून मिळालेले सहा धडे खालीलप्रमाणे आहेत:

• लेबलमधील विसंगती (Label Mismatch) स्कीमामध्ये "completed" किंवा "failed" अपेक्षित होते. मॉडेलने "success" किंवा "done" पाठवले. केवळ एका शब्दामुळे पार्सरने (parser) उपयुक्त उत्तरे नाकारली. उपाय: समानार्थी शब्द सामान्य करण्यासाठी (normalize) लवचिक प्रीप्रोसेसर वापरा.

• निकृष्ट योजना (Degenerate Plans) प्लॅनर कधीकधी काहीही उत्तर देत नसे. ॲपने या शांततेचे रूपांतर सामान्य प्रतिसादात करण्याचा प्रयत्न केला. यामुळे बनावट उत्तरे तयार झाली. उपाय: प्लॅन इंटरप्रेटर जोडा. जर प्लॅन रिकामा असेल, तर खोटे सांगण्याऐवजी वापरकर्त्याला सांगा की प्रणाली योजना तयार करण्यात अपयशी ठरली आहे.

• स्कीमा ड्रिफ्ट (Schema Drift) मॉडेलने "documentTitle" सारखी फील्ड नावे बदलून "title" केली. तसेच, त्याने इंग्रजी आणि स्पॅनिश लेबल्स एकत्र केले. उपाय: अलिआस मॅपिंगचा (alias mapping) वापर करा आणि वैध भाग वाचवा. जर एक संदर्भ (citation) चुकीचा असेल, तर इतर चार ठेवा.

• विसंगत कार्ये (Unpaired Tasks) मॉडेलने अहवाल तयार करण्यापूर्वीच तो सेव्ह करण्यास सांगितले. लॉजिक सुरक्षित होते, परंतु वापरकर्त्याचा अनुभव (user experience) बिघडला होता. उपाय: कोडने गहाळ पायऱ्या शोधल्या पाहिजेत आणि त्या आपोआप समाविष्ट केल्या पाहिजेत.

• लूप त्रुटी (Loop Errors) वापरकर्त्याने उत्तर दिल्यानंतरही मॉडेल वारंवार तेच स्पष्टीकरण विचारत राहिले. उपाय: 'एन्टिटी रिझोल्यूशन' (entity resolution) मॉडेलकडून कोडकडे हलवा. एकदा वापरकर्त्याने डेटा दिला की, प्रणाली उर्वरित कामे निश्चितपणे (deterministically) हाताळते.

• चुकीची संदिग्धता (False Ambiguity) कंपनीचे नाव स्पष्ट असतानाही मॉडेलने ते संदिग्ध असल्याचे सांगितले. यामुळे कामाचा प्रवाह (workflow) थांबला. उपाय: मॉडेलला संदिग्धतेचा अंदाज घेऊ द्या, परंतु ती वास्तव आहे की नाही याचा निर्णय डेटाला घेऊ द्या.

मुख्य तत्त्व: LLM ला वर्णन करू द्या, परंतु स्ट्रक्चर्ड आउटकम्सवर (structured outcomes) त्याचा ताबा घेऊ देऊ नका.

मॉडेलने हेतू (intent), नियोजन (planning) आणि भाषा हाताळली पाहिजे. कोडने एन्टिटी रिझोल्यूशन, चार्ट डेटा आणि अहवाल संकलन (report assembly) हाताळले पाहिजे.

जेव्हा तुम्ही प्रत्येक निष्कर्षाचा मागोवा एखाद्या रेकॉर्डपर्यंत लावू शकता, तेव्हा ती प्रणाली विश्वासार्ह बनते. गोष्टी सांगण्यासाठी मॉडेल वापरा, परंतु सत्यासाठी तुमचा कोड वापरा.

Source: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5

Optional learning community: https://t.me/GyaanSetuAi