6 Bugs Only a Live Model Could Teach Us

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial६ तासांपूर्वी2min read

केवळ लाइव्ह मॉडेलच शिकवू शकणारे ६ बग्स (Bugs)

ऑफलाइन चाचण्या आवश्यक आहेत. पण त्या पुरेशा नाहीत.

मी पेरू मधील पर्यावरणीय अनुपालनावर (environmental compliance) लक्ष ठेवण्यासाठी AgentOps Debugger तयार केले. रेकॉर्ड्स शोधण्यासाठी आणि अहवाल लिहिण्यासाठी ते Qwen Cloud वरील Qwen-plus वापरते.

मी ही प्रणाली 'ऑफलाइन-फर्स्ट' (offline-first) पद्धतीने डिझाइन केली होती. माझ्या ३१५ चाचण्या कोणत्याही नेटवर्क कॉलशिवाय पूर्ण झाल्या. सर्व चाचण्या यशस्वी झाल्या. परंतु, जेव्हा मी Alibaba Cloud वरील लाइव्ह मॉडेलवर स्विच केले, तेव्हा ही प्रणाली कोलमडली.

कोड व्यवस्थित होता. समस्या मॉडेलच्या आउटपुटमध्ये होती.

वास्तविक जगातील मॉडेलच्या अपयशातून मिळालेले सहा धडे खालीलप्रमाणे आहेत:

• लेबलमधील विसंगती (Label Mismatch) स्कीमामध्ये "completed" किंवा "failed" अपेक्षित होते. मॉडेलने "success" किंवा "done" पाठवले. केवळ एका शब्दामुळे पार्सरने (parser) उपयुक्त उत्तरे नाकारली. उपाय: समानार्थी शब्द सामान्य करण्यासाठी (normalize) लवचिक प्रीप्रोसेसर वापरा.

• निकृष्ट योजना (Degenerate Plans) प्लॅनर कधीकधी काहीही उत्तर देत नसे. ॲपने या शांततेचे रूपांतर सामान्य प्रतिसादात करण्याचा प्रयत्न केला. यामुळे बनावट उत्तरे तयार झाली. उपाय: प्लॅन इंटरप्रेटर जोडा. जर प्लॅन रिकामा असेल, तर खोटे सांगण्याऐवजी वापरकर्त्याला सांगा की प्रणाली योजना तयार करण्यात अपयशी ठरली आहे.

• स्कीमा ड्रिफ्ट (Schema Drift) मॉडेलने "documentTitle" सारखी फील्ड नावे बदलून "title" केली. तसेच, त्याने इंग्रजी आणि स्पॅनिश लेबल्स एकत्र केले. उपाय: अलिआस मॅपिंगचा (alias mapping) वापर करा आणि वैध भाग वाचवा. जर एक संदर्भ (citation) चुकीचा असेल, तर इतर चार ठेवा.

• विसंगत कार्ये (Unpaired Tasks) मॉडेलने अहवाल तयार करण्यापूर्वीच तो सेव्ह करण्यास सांगितले. लॉजिक सुरक्षित होते, परंतु वापरकर्त्याचा अनुभव (user experience) बिघडला होता. उपाय: कोडने गहाळ पायऱ्या शोधल्या पाहिजेत आणि त्या आपोआप समाविष्ट केल्या पाहिजेत.

• लूप त्रुटी (Loop Errors) वापरकर्त्याने उत्तर दिल्यानंतरही मॉडेल वारंवार तेच स्पष्टीकरण विचारत राहिले. उपाय: 'एन्टिटी रिझोल्यूशन' (entity resolution) मॉडेलकडून कोडकडे हलवा. एकदा वापरकर्त्याने डेटा दिला की, प्रणाली उर्वरित कामे निश्चितपणे (deterministically) हाताळते.

• चुकीची संदिग्धता (False Ambiguity) कंपनीचे नाव स्पष्ट असतानाही मॉडेलने ते संदिग्ध असल्याचे सांगितले. यामुळे कामाचा प्रवाह (workflow) थांबला. उपाय: मॉडेलला संदिग्धतेचा अंदाज घेऊ द्या, परंतु ती वास्तव आहे की नाही याचा निर्णय डेटाला घेऊ द्या.

मुख्य तत्त्व: LLM ला वर्णन करू द्या, परंतु स्ट्रक्चर्ड आउटकम्सवर (structured outcomes) त्याचा ताबा घेऊ देऊ नका.

मॉडेलने हेतू (intent), नियोजन (planning) आणि भाषा हाताळली पाहिजे. कोडने एन्टिटी रिझोल्यूशन, चार्ट डेटा आणि अहवाल संकलन (report assembly) हाताळले पाहिजे.

जेव्हा तुम्ही प्रत्येक निष्कर्षाचा मागोवा एखाद्या रेकॉर्डपर्यंत लावू शकता, तेव्हा ती प्रणाली विश्वासार्ह बनते. गोष्टी सांगण्यासाठी मॉडेल वापरा, परंतु सत्यासाठी तुमचा कोड वापरा.

Source: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5

Optional learning community: https://t.me/GyaanSetuAi

6 Bugs Only a Live Model Could Teach Us

Continue reading

AI एजंट्समध्ये विश्वासार्हतेची समस्या आहे

FailureDNA ची निर्मिती: स्वतःवर कधी विश्वास ठेवायचा नाही हे समजणारे एक एजंट मेमरी

मी एक AI सुरक्षा स्कॅनर बनवला — आणि नंतर माझ्या स्वतःच्या डिटेक्टरमध्येच एक बग सापडला

मी एक AI सुरक्षा स्कॅनर तयार केला — आणि नंतर माझ्या स्वतःच्या डिटेक्टरमध्येच एक बग सापडला