𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

Translated for your language. اقرأ الأصل.

AI-assisted draft.

أمس1دقيقة قراءة

لماذا تخدعك درجات الثقة في الذكاء الاصطناعي

لقد قمت بتدريب نموذجك. بدت المقاييس رائعة. ثم قمت بنشره.

بعد ستة أشهر، حدث خطأ ما. لوحة بيانات الدقة تبدو جيدة، لكن النموذج يفشل.

يحدث هذا بسبب انزياح التوزيع (distribution shift). فالبيانات في مرحلة الإنتاج تختلف عن بيانات التدريب الخاصة بك. هذا الانزياح يكسر عملية المعايرة (calibration).

إذا كنت تستخدم بنية خليط الخبراء (Mixture-of-Experts - MoE)، فستواجه مخاطرة محددة.

المعايرة تعني أنه إذا قال النموذج إنه واثق بنسبة 80%، فإنه يكون محقاً في 80% من الحالات. في نماذج MoE التي تستخدم التوجيه المرن (soft routing)، ينكسر هذا المبدأ بصمت.

يقوم التوجيه المرن بدمج عدة خبراء للحصول على نتيجة. وحتى لو كان كل خبير معايرًا، فإن الدرجة المجمعة تصبح غير موثوقة عندما تتغير بيانات الإدخال. تظهر أنماط توجيه مختلفة لم يرها النموذج أثناء التدريب.

التوجيه الصلب (Hard routing) أكثر متانة؛ فهو يرسل المدخلات إلى خبير واحد فقط، مما يبقي الثقة مرتبطة بذلك الخبير المحدد.

كيفية الإصلاح:

استخدم إعادة الوزن التنافسي (Adversarial Reweighting): قم بتدريب نموذجك على الأمثلة الصعبة. استخدم الإمالة الأسية (exponential tilt) للتركيز على الأمثلة ذات الخسارة العالية أثناء التدريب.
استخدم خسارة الفلترة المتينة (Robust Filtered Loss): ركز التدريب على الحالات التي يكون فيها أداء مزيج الخبراء أسوأ من أداء خبير واحد.

ما يجب فعله الآن:

راقب خطأ المعايرة المتوقع (Expected Calibration Error - ECE): تتبع ما إذا كانت درجات الثقة تتطابق مع دقة النموذج الفعلية.
ارسم مخططات الموثوقية (Reliability Diagrams): راقب المنحنيات التي تنحرف عن الخط القطري.
تتبع انزياح المدخلات (Input Drift): استخدم اختبارات مثل Kolmogorov-Smirnov لمعرفة ما إذا كانت بيانات الإنتاج قد تغيرت.
استخدم قياس درجة الحرارة (Temperature Scaling): هذا حل سريع لإصلاح درجات الثقة بعد النشر، رغم أنه ليس حلاً دائماً.

المعايرة هي خاصية للنظام. الأجزاء المعايرة لا تشكل دائماً نظاماً كاملاً معايرًا.

هل واجهت انزياح المعايرة في مرحلة الإنتاج؟ أخبرني عن إعدادات المراقبة الخاصة بك في التعليقات.

المصدر: https://dev.to/saeebarve/why-your-ai-models-confidence-score-is-probably-lying-and-what-to-do-about-it-1p1a

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

متابعة القراءة

تزييف المحاذاة في النماذج اللغوية الكبيرة (LLMs)

ثقة متضخمة: كيف يخلق الذكاء الاصطناعي ثقة زائفة

لماذا تعتبر التغذية الراجعة المنظمة مهمة في تدريب الذكاء الاصطناعي

فشل تقنيات الذكاء الاصطناعي في مرحلة الإنتاج: سد فجوة التنسيق في الذكاء الاصطناعي

السمة التي استبعدناها من التدريب