𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Translated for your language. Read the original.

AI-assisted draft.

14 годин тому1min read

Впевненість Qwen 2.5 7B є ненадійною

Великі мовні моделі часто брешуть щодо своєї впевненості.

Нове дослідження Університету Міннесоти виявило серйозний недолік у Qwen 2.5 7B. Коли ця модель працює з клінічними даними, її показники впевненості залишаються майже незмінними.

Модель повідомляє про впевненість у межах від 0,856 до 0,937. Це стається навіть тоді, коли модель помиляється.

Основні результати дослідження:

Модель є епістемічно невідкаліброваною. Її впевненість залежить від формату промпту, а не від точності.
Висока впевненість не означає високу точність.
Найбільш впевнено модель помиляється у простих випадках.
Традиційні моделі, такі як XGBoost, перевершують LLM на структурованих табличних даних.

Чому це відбувається?

LLM навчаються на природній мові. У них немає інтуїції щодо рядків клінічних чисел. Вони покладаються на лінгвістичні закономірності, а не на фактичні докази з даних.

Це створює ризики у сфері охорони здоров'я. Якщо ви довіряєте показнику впевненості моделі, ви можете прийняти неправильну відповідь за факт.

Дослідники знайшли спосіб виправити це без перенавчання моделі:

Поєднуйте few-shot приклади з ін'єкцією атрибуції SHAP.
Це підвищило точність з 49% до 75,3%.
Використовуйте крос-модельний калібратор.
Порівнюючи LLM із класичною моделлю ML, можна виявити, коли LLM є ненадійною.
Цей метод значно знизив рівень помилок.

Головний висновок простий. Не довіряйте вербалізованим показникам впевненості для структурованих даних. Використовуйте гібридні пайплайни. Нехай класичні моделі працюють із числами, а LLM використовуйте для міркувань та пояснень.

Джерело: https://arxiv.org/abs/2606.19509

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲

Continue reading

Імітація узгодженості в LLM

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

Ознака, яку ми усунули під час навчання

Ваша LLM була правою, але чи була вона правою з правильної причини?