רמת הביטחון של Qwen 2.5 7B אינה אמינה

Translated for your language. Read the original.

AI-assisted draft.

לפני 14 שעות1min read

מודלי שפה גדולים (LLMs) נוטים לעיתים קרובות לשקר לגבי מידת הוודאות שלהם.

מחקר חדש מאוניברסיטת מינסוטה חושף פגם משמעותי ב-Qwen 2.5 7B. כאשר מודל זה עובד עם נתונים קליניים, מדדי הביטחון שלו נותרים כמעט ללא שינוי.

המודל מדווח על רמת ביטחון שבין 0.856 ל-0.937. זה קורה גם כאשר המודל טועה.

ממצאים עיקריים מהמחקר:

המודל אינו מכויל אפיסטמית (epistemically uncalibrated). רמת הוודאות שלו תלויה בפורמט הפרומפט ולא בדיוק.
ביטחון גבוה אינו מעיד על דיוק גבוה.
המודל טועה בביטחון הגבוה ביותר במקרים קלים.
מודלים מסורתיים כמו XGBoost מציגים ביצועים טובים יותר מ-LLMs על נתונים טבלאיים מובנים.

למה זה קורה?

LLMs לומדים משפה טבעית. חסרה להם האינטואיציה לגבי שורות של מספרים קליניים. הם מסתמכים על דפוסים לשוניים במקום על ראיות מתוך הנתונים עצמם.

זה יוצר סיכון בתחום הבריאות. אם תסמכו על מדד הביטחון של המודל, אתם עלולים לקבל תשובה שגויה כעובדה.

החוקרים מצאו דרך לתקן זאת מבלי לאמן מחדש את המודל:

שילוב דוגמאות few-shot עם הזרקת SHAP attribution.
זה העלה את הדיוק מ-49% ל-75.3%.
שימוש במכויל חוצה-מודלים (cross-model calibrator).
על ידי השוואת ה-LLM למודל ML קלאסי, ניתן לזהות מתי ה-LLM אינו אמין.
שיטה זו הפחיתה את שיעור השגיאות באופן משמעותי.

המסקנה היא פשוטה. אל תסמכו על מדדי ביטחון מילוליים עבור נתונים מובנים. השתמשו בתהליכי עבודה (pipelines) היברידיים. תנו למודלים קלאסיים לטפל במספרים והשתמשו ב-LLMs לצורך הסקה והסבר.

מקור: https://arxiv.org/abs/2606.19509

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi

רמת הביטחון של Qwen 2.5 7B אינה אמינה

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

הסימן שאימנו החוצה

ה-LLM שלך צדק, אבל האם הוא צדק מהסיבה הנכונה?