Оцінка якості вихідних даних LLM у продакшені

У березні 2023 року GPT-4 визначала прості числа з точністю 97,6%. До червня 2023 року точність тієї ж моделі впала до 2,4%. Ніхто не змінював код. Ніхто не змінював промпт. Модель просто змістилася.

У цьому полягає основна проблема використання LLM у продакшені. Ви не контролюєте модель. Це залежність, яка має властивість дрейфувати. Якщо ви не будете її вимірювати, ваші користувачі самі скажуть вам, що вона зламалася.

Ви не можете покладатися на «відчуття» чи принцип «мені здається, все добре». Вам потрібні повторювані сигнали.

Традиційне програмне забезпечення є детермінованим. Один і той самий вхідний сигнал дає той самий результат. LLM порушують це правило. Вони недетерміновані, а поняття «правильно» часто є розмитим.

Щоб керувати цим, вам потрібні три рівні оцінювання:

  • Офлайн-оцінювання (Offline evals): запускайте фіксований тестовий набір при кожній зміні, щоб виявляти регресії.
  • Перевірки без еталона (Reference-free checks): використовуйте такі сигнали, як виявлення галюцинацій, коли у вас немає «правильної» відповіді.
  • Моніторинг продакшену (Production monitoring): стежте за реальним трафіком на предмет дрейфу та падіння якості.

Фундаментом є Золотий набір даних (Golden Dataset). Не використовуйте випадкові вибірки. Використовуйте кураторський набір складних випадків. Використовуйте порожні вводи, дивні граничні випадки та адверзаріальні промпти. 80 влучних прикладів кращі за 8 000 випадкових.

Використовуючи LLM як суддю, зважайте на такі упередження:

  • Упередження позиції (Position bias): судді часто надають перевагу першій відповіді, яку бачать. Виправте це, проводячи порівняння в обох порядках.
  • Упередження багатослівності (Verbosity bias): судді винагороджують довші відповіді, навіть якщо вони менш чіткі.
  • Упередження самопідсилення (Self-enhancement bias): моделі віддають перевагу тексту зі свого ж сімейства. Використовуйте різні сімейства моделей для оцінювання результатів.

Для моніторингу в реальному часі використовуйте Тріаду RAG (RAG Triad), щоб перевірити:

  • Вірність (Faithfulness): чи відповідає відповідь контексту?
  • Релевантність відповіді (Answer relevance): чи відповідає вона на запитання?
  • Релевантність контексту (Context relevance): чи витягнула система правильні документи?

Припиніть ставитися до якості моделі як до фіксованої властивості. Ставтеся до неї як до затримки (latency) або рівня помилок. Вона змінюється. Ваше завдання — помітити, коли вона перестає бути хорошою.

Починайте з малого. Напишіть 20 «золотих» прикладів. Використовуйте їх як фільтр для розгортання. Пізніше додайте дешеві евристики для продакшену.

Команди, які сплять спокійно, — це не ті, хто має найрозумніші моделі. Це ті, хто протягом години дізнається, якщо їхня модель почне дуріти.

Source: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an

Optional learning community: https://t.me/GyaanSetuAi