Как я провожу A/B-тестирование промптов для LLM, не обманывая самого себя
Однажды я создал ассистента службы поддержки и решил, что это успех. Я прогнал тридцать тестовых случаев, новый промпт показал более высокий результат, и я выкатил его в продакшн.
Через шесть часов очередь в поддержку заполнилась жалобами. В ту же ночь мне пришлось откатить изменения.
Высокий балл был ложным. Тридцати примеров недостаточно, чтобы отличить реальное улучшение от везения. Это число было просто шумом.
Вот как тестировать промпты, не совершая этой ошибки.
Малые тесты улавливают только значительные изменения. Если вы хотите найти небольшое улучшение, вам потребуется гораздо больше примеров. Чтобы заметить крошечное изменение, может понадобиться более тысячи примеров.
Используйте одни и те же вопросы для обеих версий. Не давайте версии A один набор вопросов, а версии B — другой. Некоторые вопросы сложнее других. Если версии B достанутся легкие вопросы, она будет выглядеть лучше, даже если на самом деле она хуже. Прогоняйте обе версии через один и тот же набор вопросов.
Смотрите на диапазон, а не только на среднее значение. Среднее арифметическое ничего не говорит о масштабе успеха. Указывайте диапазон от минимально до максимально вероятного улучшения. Если этот диапазон включает ноль, не выпускайте обновление.
Выберите правильный метод оценки. • Используйте чек-лист для оценки абсолютного качества. • Используйте сравнение «бок о бок» для субъективных качеств, таких как тон или полезность.
Используйте многоруких бандитов для нескольких версий. Если у вас три или более версий и вы хотите минимизировать недовольство пользователей, используйте метод бандита. Он направляет больше трафика на победившую версию по мере обучения. Это предотвращает ситуацию, когда пользователи неделями получают плохие ответы.
Избегайте этих ловушек:
- Сравнение средних значений без учета диапазона.
- Использование разных наборов вопросов для разных версий.
- Смена метода оценки в середине теста.
- Остановка теста в тот момент, когда цифры начинают выглядеть хорошо.
- Отслеживание слишком большого количества метрик одновременно. Это повышает вероятность увидеть ложный успех.
- Доверие оценщику до того, как вы проверили его результаты путем сравнения с человеческим суждением.
Сложность не в том, чтобы провести тест. Сложность в том, чтобы понять, когда результат является реальным.
Источник: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f
Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi
