𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

آپ نے اپنا ماڈل ٹرین کیا۔ میٹرکس (metrics) بہترین لگ رہے تھے۔ آپ نے اسے ڈیپلائے کر دیا۔

چھ ماہ بعد، کچھ غلط ہو رہا ہے۔ آپ کا ایکوریسی ڈیش بورڈ ٹھیک نظر آتا ہے، لیکن ماڈل ناکام ہو رہا ہے۔

یہ ڈسٹری بیوشن شفٹ (distribution shift) کی وجہ سے ہوتا ہے۔ پروڈکشن میں ڈیٹا آپ کے ٹریننگ ڈیٹا سے مختلف ہوتا ہے۔ یہ شفٹ کیلیبریشن (calibration) کو خراب کر دیتا ہے۔

اگر آپ Mixture-of-Experts (MoE) آرکیٹیکچر استعمال کرتے ہیں، تو آپ کو ایک مخصوص خطرے کا سامنا کرنا پڑتا ہے۔

کیلیبریشن کا مطلب ہے کہ اگر کوئی ماڈل کہتا ہے کہ وہ 80% پر اعتماد (confident) ہے، تو وہ 80% بار درست ہوتا ہے۔ سافٹ روٹنگ (soft routing) والے MoE ماڈلز میں، یہ خاموشی سے ٹوٹ جاتا ہے۔

سافٹ روٹنگ نتیجہ حاصل کرنے کے لیے متعدد ماہرین (experts) کو ملا دیتی ہے۔ اگرچہ ہر ماہر کیلیبریٹڈ ہوتا ہے، لیکن جب ان پٹ ڈیٹا تبدیل ہوتا ہے تو مجموعی اسکور ناقابل اعتبار ہو جاتا ہے۔ مختلف روٹنگ پیٹرنز سامنے آتے ہیں جو ماڈل نے ٹریننگ کے دوران نہیں دیکھے تھے۔

ہارڈ روٹنگ (Hard routing) زیادہ مضبوط ہے۔ یہ ان پٹ کو صرف ایک ماہر کے پاس بھیجتا ہے۔ اعتماد (confidence) اسی مخصوص ماہر سے جڑا رہتا ہے۔

اسے کیسے ٹھیک کریں:

  • Adversarial Reweighting کا استعمال کریں: اپنے ماڈل کو مشکل مثالوں (hard examples) پر ٹرین کریں۔ ٹریننگ کے دوران ہائی لاس (high-loss) والی مثالوں پر زور دینے کے لیے ایک ایکسپونینشل ٹِلٹ (exponential tilt) کا استعمال کریں۔
  • Robust Filtered Loss کا استعمال کریں: ان کیسز پر ٹریننگ مرکوز کریں جہاں ماہروں کا ملاپ (expert blend) ایک اکیلے ماہر کے مقابلے میں خراب کارکردگی دکھاتا ہے۔

ابھی کیا کریں:

  • Expected Calibration Error (ECE) کی نگرانی کریں: اس بات پر نظر رکھیں کہ آیا آپ کے کنفیڈنس اسکورز آپ کی اصل ایکوریسی سے مطابقت رکھتے ہیں۔
  • Reliability Diagrams بنائیں: ان کرو (curves) پر نظر رکھیں جو ڈائیگنل لائن (diagonal line) سے ہٹ کر مڑ رہی ہوں۔
  • Input Drift کو ٹریک کریں: یہ دیکھنے کے لیے کہ آیا آپ کا پروڈکشن ڈیٹا تبدیل ہو گیا ہے، Kolmogorov-Smirnov جیسے ٹیسٹ استعمال کریں۔
  • Temperature Scaling کا استعمال کریں: یہ ڈیپلائمنٹ کے بعد کنفیڈنس اسکورز کو ٹھیک کرنے کے لیے ایک تیز رفتار حل ہے، اگرچہ یہ مستقل حل نہیں ہے۔

کیلیبریشن ایک سسٹم کی خصوصیت ہے۔ کیلیبریٹڈ حصے ہمیشہ ایک کیلیبریٹڈ مجموعہ نہیں بناتے۔

کیا آپ نے پروڈکشن میں کیلیبریشن ڈرِفٹ (calibration drift) کا سامنا کیا ہے؟ کمنٹس میں اپنا مانیٹرنگ سیٹ اپ بتائیں۔

Source: https://dev.to/saeebarve/why-your-ai-models-confidence-score-is-probably-lying-and-what-to-do-about-it-1p1a

Optional learning community: https://t.me/GyaanSetuAi