6 बग्स जो केवल एक लाइव मॉडल ही हमें सिखा सकता है
ऑफलाइन टेस्ट ज़रूरी हैं। लेकिन वे पर्याप्त नहीं हैं।
मैंने पेरू में पर्यावरणीय अनुपालन (environmental compliance) को ट्रैक करने के लिए AgentOps Debugger बनाया। यह रिकॉर्ड खोजने और रिपोर्ट लिखने के लिए Qwen Cloud पर Qwen-plus का उपयोग करता है।
मैंने सिस्टम को 'ऑफलाइन-फर्स्ट' डिज़ाइन किया था। मेरे 315 टेस्ट बिना किसी नेटवर्क कॉल के चले। सभी टेस्ट पास हो गए। लेकिन जब मैंने Alibaba Cloud पर लाइव मॉडल पर स्विच किया, तो सिस्टम टूट गया।
कोड ठीक था। समस्या मॉडल के आउटपुट में थी।
वास्तविक दुनिया की मॉडल विफलताओं से मिलने वाले छह सबक यहाँ दिए गए हैं:
• लेबल मिसमैच (Label Mismatch) स्कीमा "completed" या "failed" की अपेक्षा कर रहा था। मॉडल ने "success" या "done" भेजा। केवल एक शब्द के कारण पार्सर ने उपयोगी उत्तरों को खारिज कर दिया। समाधान: समानार्थी शब्दों (synonyms) को सामान्य करने के लिए टॉलेरेंट प्रीप्रोसेसर (tolerant preprocessors) का उपयोग करें।
• खराब योजनाएं (Degenerate Plans) प्लानर कभी-कभी कुछ भी वापस नहीं करता था। ऐप ने इस चुप्पी को एक सामान्य प्रतिक्रिया में बदलने की कोशिश की। इससे गलत (fake) उत्तर बन गए। समाधान: एक प्लान इंटरप्रेटर जोड़ें। यदि योजना खाली है, तो झूठ बोलने के बजाय उपयोगकर्ता को बताएं कि सिस्टम योजना बनाने में विफल रहा।
• स्कीमा ड्रिफ्ट (Schema Drift) मॉडल ने "documentTitle" जैसे फ़ील्ड नामों को बदलकर "title" कर दिया। इसने अंग्रेजी और स्पेनिश लेबल भी मिला दिए। समाधान: एलियास मैपिंग (alias mapping) का उपयोग करें और वैध हिस्सों को बचा लें। यदि एक साइटेशन (citation) खराब है, तो बाकी चार को रखें।
• असंबद्ध कार्य (Unpaired Tasks) मॉडल ने रिपोर्ट का ड्राफ्ट तैयार करने से पहले ही उसे सेव करने के लिए कहा। लॉजिक सुरक्षित था, लेकिन यूजर एक्सपीरियंस (user experience) खराब हो गया। समाधान: कोड को छूटे हुए स्टेप्स का पता लगाना चाहिए और उन्हें स्वचालित रूप से जोड़ देना चाहिए।
• लूप एरर (Loop Errors) उपयोगकर्ता के जवाब देने के बाद भी मॉडल बार-बार वही स्पष्टीकरण वाले प्रश्न पूछता रहा। समाधान: एंटिटी रेजोल्यूशन (entity resolution) को मॉडल से हटाकर कोड में ले आएं। एक बार जब उपयोगकर्ता डेटा प्रदान कर देता है, तो सिस्टम बाकी काम नियतात्मक (deterministically) रूप से संभाल लेता है।
• झूठी अस्पष्टता (False Ambiguity) मॉडल ने दावा किया कि कंपनी का नाम अस्पष्ट है, जबकि वह नहीं था। इससे वर्कफ़्लो रुक गया। समाधान: मॉडल को अस्पष्टता का सुझाव देने दें, लेकिन यह डेटा को तय करने दें कि क्या वह वास्तव में अस्पष्ट है।
मुख्य सिद्धांत: LLM को वर्णन (narrate) करने दें, लेकिन उसे स्ट्रक्चर्ड आउटकम्स (structured outcomes) का मालिक न बनने दें।
मॉडल को इंटेंट (intent), प्लानिंग और भाषा को संभालना चाहिए। कोड को एंटिटी रेजोल्यूशन, चार्ट डेटा और रिपोर्ट असेंबली को संभालना चाहिए।
एक सिस्टम तब भरोसेमंद बनता है जब आप हर निष्कर्ष को किसी रिकॉर्ड से जोड़ सकें। कहानी के लिए मॉडल का उपयोग करें, लेकिन सच्चाई के लिए अपने कोड का उपयोग करें।
स्रोत: https://dev.to/ginollerena/six-bugs-only-a-live-model-could-teach-us-57k5
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi
