Jak przeprowadzać testy A/B promptów LLM, nie oszukując samego siebie
Kiedyś zbudowałem asystenta wsparcia i myślałem, że mam hit. Przeprowadziłem trzydzieści przypadków testowych, nowy prompt uzyskał wyższy wynik i wdrożyłem go.
Sześć godzin później kolejka zgłoszeń wsparcia zapełniła się skargami. Tej samej nocy musiałem wycofać zmiany.
Wyższy wynik był fałszywy. Trzydzieści przykładów to za mało, aby odróżnić realną poprawę od szczęścia. Ta liczba była po prostu szumem.
Oto jak testować prompty, aby nie popełnić tego błędu.
Małe testy wyłapują tylko duże zmiany. Jeśli chcesz znaleźć niewielką poprawę, potrzebujesz znacznie więcej przykładów. Aby wykryć minimalną zmianę, możesz potrzebować ponad tysiąca przykładów.
Używaj tych samych pytań dla obu wersji. Nie dawaj wersji A jednego zestawu pytań, a wersji B innego. Niektóre pytania są trudniejsze od innych. Jeśli wersja B otrzyma łatwe pytania, będzie wyglądać lepiej, nawet jeśli w rzeczywistości jest gorsza. Przepuść obie wersje przez dokładnie ten sam zestaw pytań.
Patrz na zakres, a nie tylko na średnią. Średnia nic nie mówi o tym, jak duża jest wygrana. Raportuj zakres najmniejszych i największych prawdopodobnych usprawnień. Jeśli zakres ten obejmuje zero, nie wdrażaj zmian.
Wybierz odpowiednią metodę oceniania. • Użyj listy kontrolnej dla jakości absolutnej. • Użyj porównania obok siebie dla jakości subiektywnej, takiej jak ton czy pomocność.
Użyj algorytmu typu bandit dla wielu wersji. Jeśli masz trzy lub więcej wersji i chcesz ograniczyć frustrację użytkowników, użyj bandita. Przekierowuje on więcej ruchu do zwycięskiej wersji w miarę uczenia się. Zapobiega to sytuacji, w której użytkownicy przez tygodnie otrzymują złe odpowiedzi.
Unikaj tych pułapek:
- Porównywanie średnich bez uwzględnienia zakresu.
- Używanie różnych zestawów pytań dla różnych wersji.
- Zmiana metody oceniania w trakcie testu.
- Zatrzymywanie testu w momencie, gdy liczby wyglądają dobrze.
- Obserwowanie zbyt wielu metryk naraz. Zwiększa to szansę na dostrzeżenie fałszywego zwycięstwa.
- Ufanie metodzie oceniania przed zweryfikowaniem jej z ludzkim osądem.
Najtrudniejsze nie jest przeprowadzenie testu. Najtrudniejsze jest wiedza o tym, kiedy wynik jest prawdziwy.
Source: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f
Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi
