Впевненість Qwen 2.5 7B є ненадійною

Великі мовні моделі часто брешуть щодо своєї впевненості.

Нове дослідження Університету Міннесоти виявило серйозний недолік у Qwen 2.5 7B. Коли ця модель працює з клінічними даними, її показники впевненості залишаються майже незмінними.

Модель повідомляє про впевненість у межах від 0,856 до 0,937. Це стається навіть тоді, коли модель помиляється.

Основні результати дослідження:

  • Модель є епістемічно невідкаліброваною. Її впевненість залежить від формату промпту, а не від точності.
  • Висока впевненість не означає високу точність.
  • Найбільш впевнено модель помиляється у простих випадках.
  • Традиційні моделі, такі як XGBoost, перевершують LLM на структурованих табличних даних.

Чому це відбувається?

LLM навчаються на природній мові. У них немає інтуїції щодо рядків клінічних чисел. Вони покладаються на лінгвістичні закономірності, а не на фактичні докази з даних.

Це створює ризики у сфері охорони здоров'я. Якщо ви довіряєте показнику впевненості моделі, ви можете прийняти неправильну відповідь за факт.

Дослідники знайшли спосіб виправити це без перенавчання моделі:

  • Поєднуйте few-shot приклади з ін'єкцією атрибуції SHAP.
  • Це підвищило точність з 49% до 75,3%.
  • Використовуйте крос-модельний калібратор.
  • Порівнюючи LLM із класичною моделлю ML, можна виявити, коли LLM є ненадійною.
  • Цей метод значно знизив рівень помилок.

Головний висновок простий. Не довіряйте вербалізованим показникам впевненості для структурованих даних. Використовуйте гібридні пайплайни. Нехай класичні моделі працюють із числами, а LLM використовуйте для міркувань та пояснень.

Джерело: https://arxiv.org/abs/2606.19509

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi