ثقة Qwen 2.5 7B غير موثوقة

Translated for your language. اقرأ الأصل.

AI-assisted draft.

قبل 14 ساعة1دقيقة قراءة

غالبًا ما تضلل النماذج اللغوية الكبيرة المستخدمين بشأن مدى ثقتها في إجاباتها.

تُظهر دراسة جديدة من جامعة مينيسوتا خللاً كبيراً في Qwen 2.5 7B. فعندما يعمل هذا النموذج مع البيانات السريرية، تظل درجات الثقة لديه ثابتة تقريبًا.

يسجل النموذج درجة ثقة تتراوح بين 0.856 و0.937، ويحدث هذا حتى عندما يكون النموذج مخطئًا.

النتائج الرئيسية للبحث:

النموذج غير معاير معرفيًا (epistemically uncalibrated)؛ حيث تعتمد درجة تأكده على تنسيق الأمر (prompt format) بدلاً من الدقة.
الثقة العالية لا تعني دقة عالية.
يكون النموذج أكثر خطأً وبثقة عالية في الحالات السهلة.
تتفوق النماذج التقليدية مثل XGBoost على LLMs في التعامل مع البيانات الجدولية المهيكلة.

لماذا يحدث هذا؟

تتعلم LLMs من اللغة الطبيعية، وهي تفتقر إلى الحدس في التعامل مع صفوف الأرقام السريرية، حيث تعتمد على الأنماط اللغوية بدلاً من الأدلة الفعلية للبيانات.

وهذا يخلق مخاطرة في مجال الرعاية الصحية؛ فإذا وثقت في درجة ثقة النموذج، فقد تقبل إجابة خاطئة على أنها حقيقة.

وجد الباحثون طريقة لإصلاح ذلك دون الحاجة إلى إعادة تدريب النموذج:

الجمع بين أمثلة قليلة (few-shot examples) وحقن تخصيص SHAP (SHAP attribution injection).
أدى ذلك إلى زيادة الدقة من 49% إلى 75.3%.
استخدام معاير عبر النماذج (cross-model calibrator).
من خلال مقارنة LLM بنموذج ML كلاسيكي، يمكنك اكتشاف متى يكون LLM غير موثوق.
قللت هذه الطريقة من معدل الخطأ بشكل كبير.

الخلاصة بسيطة: لا تثق في درجات الثقة اللفظية للبيانات المهيكلة. استخدم مسارات عمل هجينة (hybrid pipelines)؛ اترك النماذج الكلاسيكية تتعامل مع الأرقام، واستخدم LLMs للاستنتاج والشرح.

المصدر: https://arxiv.org/abs/2606.19509

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

ثقة Qwen 2.5 7B غير موثوقة

متابعة القراءة

تزييف المحاذاة في النماذج اللغوية الكبيرة (LLMs)

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

السمة التي استبعدناها من التدريب

كان نموذج اللغة الكبير الخاص بك محقاً، ولكن هل كان محقاً للسبب الصحيح؟