ثقة Qwen 2.5 7B غير موثوقة
غالبًا ما تضلل النماذج اللغوية الكبيرة المستخدمين بشأن مدى ثقتها في إجاباتها.
تُظهر دراسة جديدة من جامعة مينيسوتا خللاً كبيراً في Qwen 2.5 7B. فعندما يعمل هذا النموذج مع البيانات السريرية، تظل درجات الثقة لديه ثابتة تقريبًا.
يسجل النموذج درجة ثقة تتراوح بين 0.856 و0.937، ويحدث هذا حتى عندما يكون النموذج مخطئًا.
النتائج الرئيسية للبحث:
- النموذج غير معاير معرفيًا (epistemically uncalibrated)؛ حيث تعتمد درجة تأكده على تنسيق الأمر (prompt format) بدلاً من الدقة.
- الثقة العالية لا تعني دقة عالية.
- يكون النموذج أكثر خطأً وبثقة عالية في الحالات السهلة.
- تتفوق النماذج التقليدية مثل XGBoost على LLMs في التعامل مع البيانات الجدولية المهيكلة.
لماذا يحدث هذا؟
تتعلم LLMs من اللغة الطبيعية، وهي تفتقر إلى الحدس في التعامل مع صفوف الأرقام السريرية، حيث تعتمد على الأنماط اللغوية بدلاً من الأدلة الفعلية للبيانات.
وهذا يخلق مخاطرة في مجال الرعاية الصحية؛ فإذا وثقت في درجة ثقة النموذج، فقد تقبل إجابة خاطئة على أنها حقيقة.
وجد الباحثون طريقة لإصلاح ذلك دون الحاجة إلى إعادة تدريب النموذج:
- الجمع بين أمثلة قليلة (few-shot examples) وحقن تخصيص SHAP (SHAP attribution injection).
- أدى ذلك إلى زيادة الدقة من 49% إلى 75.3%.
- استخدام معاير عبر النماذج (cross-model calibrator).
- من خلال مقارنة LLM بنموذج ML كلاسيكي، يمكنك اكتشاف متى يكون LLM غير موثوق.
- قللت هذه الطريقة من معدل الخطأ بشكل كبير.
الخلاصة بسيطة: لا تثق في درجات الثقة اللفظية للبيانات المهيكلة. استخدم مسارات عمل هجينة (hybrid pipelines)؛ اترك النماذج الكلاسيكية تتعامل مع الأرقام، واستخدم LLMs للاستنتاج والشرح.
المصدر: https://arxiv.org/abs/2606.19509
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi