𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

Translated for your language. Read the original.

AI-assisted draft.

گزشتہ کل1min read

آپ نے اپنا ماڈل ٹرین کیا۔ میٹرکس (metrics) بہترین لگ رہے تھے۔ آپ نے اسے ڈیپلائے کر دیا۔

چھ ماہ بعد، کچھ غلط ہو رہا ہے۔ آپ کا ایکوریسی ڈیش بورڈ ٹھیک نظر آتا ہے، لیکن ماڈل ناکام ہو رہا ہے۔

یہ ڈسٹری بیوشن شفٹ (distribution shift) کی وجہ سے ہوتا ہے۔ پروڈکشن میں ڈیٹا آپ کے ٹریننگ ڈیٹا سے مختلف ہوتا ہے۔ یہ شفٹ کیلیبریشن (calibration) کو خراب کر دیتا ہے۔

اگر آپ Mixture-of-Experts (MoE) آرکیٹیکچر استعمال کرتے ہیں، تو آپ کو ایک مخصوص خطرے کا سامنا کرنا پڑتا ہے۔

کیلیبریشن کا مطلب ہے کہ اگر کوئی ماڈل کہتا ہے کہ وہ 80% پر اعتماد (confident) ہے، تو وہ 80% بار درست ہوتا ہے۔ سافٹ روٹنگ (soft routing) والے MoE ماڈلز میں، یہ خاموشی سے ٹوٹ جاتا ہے۔

سافٹ روٹنگ نتیجہ حاصل کرنے کے لیے متعدد ماہرین (experts) کو ملا دیتی ہے۔ اگرچہ ہر ماہر کیلیبریٹڈ ہوتا ہے، لیکن جب ان پٹ ڈیٹا تبدیل ہوتا ہے تو مجموعی اسکور ناقابل اعتبار ہو جاتا ہے۔ مختلف روٹنگ پیٹرنز سامنے آتے ہیں جو ماڈل نے ٹریننگ کے دوران نہیں دیکھے تھے۔

ہارڈ روٹنگ (Hard routing) زیادہ مضبوط ہے۔ یہ ان پٹ کو صرف ایک ماہر کے پاس بھیجتا ہے۔ اعتماد (confidence) اسی مخصوص ماہر سے جڑا رہتا ہے۔

اسے کیسے ٹھیک کریں:

Adversarial Reweighting کا استعمال کریں: اپنے ماڈل کو مشکل مثالوں (hard examples) پر ٹرین کریں۔ ٹریننگ کے دوران ہائی لاس (high-loss) والی مثالوں پر زور دینے کے لیے ایک ایکسپونینشل ٹِلٹ (exponential tilt) کا استعمال کریں۔
Robust Filtered Loss کا استعمال کریں: ان کیسز پر ٹریننگ مرکوز کریں جہاں ماہروں کا ملاپ (expert blend) ایک اکیلے ماہر کے مقابلے میں خراب کارکردگی دکھاتا ہے۔

ابھی کیا کریں:

Expected Calibration Error (ECE) کی نگرانی کریں: اس بات پر نظر رکھیں کہ آیا آپ کے کنفیڈنس اسکورز آپ کی اصل ایکوریسی سے مطابقت رکھتے ہیں۔
Reliability Diagrams بنائیں: ان کرو (curves) پر نظر رکھیں جو ڈائیگنل لائن (diagonal line) سے ہٹ کر مڑ رہی ہوں۔
Input Drift کو ٹریک کریں: یہ دیکھنے کے لیے کہ آیا آپ کا پروڈکشن ڈیٹا تبدیل ہو گیا ہے، Kolmogorov-Smirnov جیسے ٹیسٹ استعمال کریں۔
Temperature Scaling کا استعمال کریں: یہ ڈیپلائمنٹ کے بعد کنفیڈنس اسکورز کو ٹھیک کرنے کے لیے ایک تیز رفتار حل ہے، اگرچہ یہ مستقل حل نہیں ہے۔

کیلیبریشن ایک سسٹم کی خصوصیت ہے۔ کیلیبریٹڈ حصے ہمیشہ ایک کیلیبریٹڈ مجموعہ نہیں بناتے۔

کیا آپ نے پروڈکشن میں کیلیبریشن ڈرِفٹ (calibration drift) کا سامنا کیا ہے؟ کمنٹس میں اپنا مانیٹرنگ سیٹ اپ بتائیں۔

Source: https://dev.to/saeebarve/why-your-ai-models-confidence-score-is-probably-lying-and-what-to-do-about-it-1p1a

Optional learning community: https://t.me/GyaanSetuAi

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗜𝗻𝗳𝗹𝗮𝘁𝗲𝗱 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲: 𝗛𝗼𝘄 𝗔𝗜 𝗖𝗿𝗲𝗮𝘁𝗲𝘀 𝗙𝗮𝗹𝘀𝗲 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲

𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

پروڈکشن میں اے آئی ٹیکنالوجی کی ناکامی: اے آئی کوآرڈینیشن کے خلا کو پُر کریں

𝗧𝗵𝗲 𝗧𝗲𝗹𝗹 𝗪𝗲 𝗧𝗿𝗮𝗶𝗻𝗲𝗱 𝗢𝘂𝘁