आपकी AI कॉन्फिडेंस स्कोर क्यों झूठ बोलते हैं

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

कल1मिनट पढ़ें

आपके AI कॉन्फिडेंस स्कोर झूठ क्यों बोलते हैं

आपने अपना मॉडल ट्रेन किया। मेट्रिक्स बहुत अच्छे दिखे। आपने इसे डिप्लॉय कर दिया।

छह महीने बाद, कुछ गलत हो रहा है। आपका एक्यूरेसी डैशबोर्ड ठीक दिख रहा है, लेकिन मॉडल फेल हो रहा है।

यह 'डिस्ट्रीब्यूशन शिफ्ट' (distribution shift) के कारण होता है। प्रोडक्शन में डेटा आपके ट्रेनिंग डेटा से अलग होता है। यह शिफ्ट कैलिब्रेशन (calibration) को बिगाड़ देता है।

यदि आप Mixture-of-Experts (MoE) आर्किटेक्चर का उपयोग करते हैं, तो आपको एक विशिष्ट जोखिम का सामना करना पड़ता है।

कैलिब्रेशन का अर्थ है कि यदि कोई मॉडल कहता है कि वह 80% कॉन्फिडेंट है, तो वह 80% बार सही होता है। सॉफ्ट रूटिंग (soft routing) वाले MoE मॉडल्स में, यह चुपचाप टूट जाता है।

सॉफ्ट रूटिंग परिणाम प्राप्त करने के लिए कई विशेषज्ञों (experts) को मिलाता है। भले ही प्रत्येक विशेषज्ञ कैलिब्रेटेड हो, लेकिन जब इनपुट डेटा बदलता है, तो संयुक्त स्कोर अविश्वसनीय हो जाता है। अलग-अलग रूटिंग पैटर्न सामने आते हैं जिन्हें मॉडल ने ट्रेनिंग के दौरान नहीं देखा था।

हार्ड रूटिंग (hard routing) अधिक मजबूत है। यह इनपुट को केवल एक विशेषज्ञ के पास भेजता है। कॉन्फिडेंस उस विशिष्ट विशेषज्ञ से जुड़ा रहता है।

इसे कैसे ठीक करें:

Adversarial Reweighting का उपयोग करें: अपने मॉडल को कठिन उदाहरणों (hard examples) पर ट्रेन करें। ट्रेनिंग के दौरान हाई-लॉस (high-loss) उदाहरणों पर जोर देने के लिए एक्सपोनेंशियल टिल्ट (exponential tilt) का उपयोग करें।
Robust Filtered Loss का उपयोग करें: ट्रेनिंग को उन मामलों पर केंद्रित करें जहाँ एक्सपर्ट ब्लेंड (expert blend) एक एकल विशेषज्ञ की तुलना में खराब प्रदर्शन करता है।

अभी क्या करें:

Expected Calibration Error (ECE) की निगरानी करें: ट्रैक करें कि क्या आपके कॉन्फिडेंस स्कोर आपकी वास्तविक एक्यूरेसी से मेल खाते हैं।
Reliability Diagrams प्लॉट करें: उन कर्व्स (curves) पर नज़र रखें जो डायगोनल लाइन से दूर झुकते हैं।
Input Drift को ट्रैक करें: यह देखने के लिए कि क्या आपका प्रोडक्शन डेटा बदल गया है, Kolmogorov-Smirnov जैसे टेस्ट का उपयोग करें।
Temperature Scaling का उपयोग करें: यह डिप्लॉयमेंट के बाद कॉन्फिडेंस स्कोर को ठीक करने के लिए एक तेज़ पैच है, हालांकि यह स्थायी समाधान नहीं है।

कैलिब्रेशन एक सिस्टम प्रॉपर्टी है। कैलिब्रेटेड हिस्से हमेशा एक कैलिब्रेटेड संपूर्ण (whole) नहीं बनाते हैं।

क्या आपने प्रोडक्शन में कैलिब्रेशन ड्रिफ्ट का सामना किया है? मुझे कमेंट्स में अपना मॉनिटरिंग सेटअप बताएं।

Source: https://dev.to/saeebarve/why-your-ai-models-confidence-score-is-probably-lying-and-what-to-do-about-it-1p1a

Optional learning community: https://t.me/GyaanSetuAi

आपकी AI कॉन्फिडेंस स्कोर क्यों झूठ बोलते हैं

पढ़ना जारी रखें

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

बढ़ा हुआ आत्मविश्वास: एआई कैसे गलत आत्मविश्वास पैदा करता है

AI ट्रेनिंग में संरचित फीडबैक क्यों महत्वपूर्ण है

प्रोडक्शन में एआई तकनीक की विफलता: एआई समन्वय अंतराल को कम करें

𝗧𝗵𝗲 𝗧𝗲𝗹𝗹 𝗪𝗲 𝗧𝗿𝗮𝗶𝗻𝗲𝗱 𝗢𝘂𝘁