Впевненість Qwen 2.5 7B є ненадійною
Великі мовні моделі часто брешуть щодо своєї впевненості.
Нове дослідження Університету Міннесоти виявило серйозний недолік у Qwen 2.5 7B. Коли ця модель працює з клінічними даними, її показники впевненості залишаються майже незмінними.
Модель повідомляє про впевненість у межах від 0,856 до 0,937. Це стається навіть тоді, коли модель помиляється.
Основні результати дослідження:
- Модель є епістемічно невідкаліброваною. Її впевненість залежить від формату промпту, а не від точності.
- Висока впевненість не означає високу точність.
- Найбільш впевнено модель помиляється у простих випадках.
- Традиційні моделі, такі як XGBoost, перевершують LLM на структурованих табличних даних.
Чому це відбувається?
LLM навчаються на природній мові. У них немає інтуїції щодо рядків клінічних чисел. Вони покладаються на лінгвістичні закономірності, а не на фактичні докази з даних.
Це створює ризики у сфері охорони здоров'я. Якщо ви довіряєте показнику впевненості моделі, ви можете прийняти неправильну відповідь за факт.
Дослідники знайшли спосіб виправити це без перенавчання моделі:
- Поєднуйте few-shot приклади з ін'єкцією атрибуції SHAP.
- Це підвищило точність з 49% до 75,3%.
- Використовуйте крос-модельний калібратор.
- Порівнюючи LLM із класичною моделлю ML, можна виявити, коли LLM є ненадійною.
- Цей метод значно знизив рівень помилок.
Головний висновок простий. Не довіряйте вербалізованим показникам впевненості для структурованих даних. Використовуйте гібридні пайплайни. Нехай класичні моделі працюють із числами, а LLM використовуйте для міркувань та пояснень.
Джерело: https://arxiv.org/abs/2606.19509
Додаткова спільнота для навчання: https://t.me/GyaanSetuAi