רמת הביטחון של Qwen 2.5 7B אינה אמינה
מודלי שפה גדולים (LLMs) נוטים לעיתים קרובות לשקר לגבי מידת הוודאות שלהם.
מחקר חדש מאוניברסיטת מינסוטה חושף פגם משמעותי ב-Qwen 2.5 7B. כאשר מודל זה עובד עם נתונים קליניים, מדדי הביטחון שלו נותרים כמעט ללא שינוי.
המודל מדווח על רמת ביטחון שבין 0.856 ל-0.937. זה קורה גם כאשר המודל טועה.
ממצאים עיקריים מהמחקר:
- המודל אינו מכויל אפיסטמית (epistemically uncalibrated). רמת הוודאות שלו תלויה בפורמט הפרומפט ולא בדיוק.
- ביטחון גבוה אינו מעיד על דיוק גבוה.
- המודל טועה בביטחון הגבוה ביותר במקרים קלים.
- מודלים מסורתיים כמו XGBoost מציגים ביצועים טובים יותר מ-LLMs על נתונים טבלאיים מובנים.
למה זה קורה?
LLMs לומדים משפה טבעית. חסרה להם האינטואיציה לגבי שורות של מספרים קליניים. הם מסתמכים על דפוסים לשוניים במקום על ראיות מתוך הנתונים עצמם.
זה יוצר סיכון בתחום הבריאות. אם תסמכו על מדד הביטחון של המודל, אתם עלולים לקבל תשובה שגויה כעובדה.
החוקרים מצאו דרך לתקן זאת מבלי לאמן מחדש את המודל:
- שילוב דוגמאות few-shot עם הזרקת SHAP attribution.
- זה העלה את הדיוק מ-49% ל-75.3%.
- שימוש במכויל חוצה-מודלים (cross-model calibrator).
- על ידי השוואת ה-LLM למודל ML קלאסי, ניתן לזהות מתי ה-LLM אינו אמין.
- שיטה זו הפחיתה את שיעור השגיאות באופן משמעותי.
המסקנה היא פשוטה. אל תסמכו על מדדי ביטחון מילוליים עבור נתונים מובנים. השתמשו בתהליכי עבודה (pipelines) היברידיים. תנו למודלים קלאסיים לטפל במספרים והשתמשו ב-LLMs לצורך הסקה והסבר.
מקור: https://arxiv.org/abs/2606.19509
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi