Як я проводжу A/B тестування промптів для LLM, не вводячи себе в оману

Одного разу я створив помічника служби підтримки і подумав, що знайшов ідеальний варіант. Я провів тридцять тестових випадків, новий промпт отримав вищий бал, і я випустив його в роботу.

Через шість годин черга запитів у підтримку переповнилася скаргами. Тієї ж ночі мені довелося відкотити зміни.

Вищий бал був фальшивим. Тридцяти прикладів недостатньо, щоб відрізнити реальне покращення від везіння. Це число було просто шумом.

Ось як тестувати промпти, щоб не припуститися такої помилки.

  • Малі тести фіксують лише значні зміни. Якщо ви хочете знайти невелике покращення, вам потрібно набагато більше прикладів. Щоб помітити крихітну зміну, може знадобитися понад тисячу прикладів.

  • Використовуйте однакові запитання для обох версій. Не давайте версії A один набір запитань, а версії B — інший. Деякі запитання складніші за інші. Якщо версія B отримає легкі запитання, вона виглядатиме краще, навіть якщо насправді вона гірша. Пропускайте обидві версії через один і той самий набір запитань.

  • Дивіться на діапазон, а не лише на середнє значення. Середнє значення нічого не каже про те, наскільки значним є успіх. Вказуйте діапазон між найменшим і найбільшим ймовірним покращенням. Якщо цей діапазон включає нуль, не випускайте оновлення.

  • Оберіть правильний метод оцінювання. • Використовуйте чек-лист для абсолютної якості. • Використовуйте порівняння side-by-side для суб'єктивної якості, такої як тон або корисність.

  • Використовуйте алгоритм «бандит» (bandit) для кількох версій. Якщо у вас є три або більше версій і ви хочете мінімізувати розчарування користувачів, використовуйте «бандит». Він спрямовує більше трафіку на версію-переможця в міру навчання. Це не дозволяє користувачам тижнями отримувати погані відповіді.

Уникайте цих пасток:

  • Порівняння середніх значень без урахування діапазону.
  • Використання різних наборів запитань для різних версій.
  • Зміна методу оцінювання посеред тесту.
  • Зупинка тесту в той момент, коли цифри виглядають добре.
  • Відстеження занадто великої кількості метрик одночасно. Це підвищує шанс побачити фальшиву перемогу.
  • Довіра до методу оцінювання до того, як ви перевірите його результати порівняно з людським судженням.

Найважче — це не проведення тесту. Найважче — це розуміння того, коли результат є справжнім.

Source: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f

Optional learning community: https://t.me/GyaanSetuAi