Ocena jakości wyjścia LLM w środowisku produkcyjnym

W marcu 2023 r. GPT-4 identyfikował liczby pierwsze z dokładnością 97,6%. Do czerwca 2023 r. dokładność tego samego modelu spadła do 2,4%. Nikt nie zmieniał kodu. Nikt nie zmieniał promptu. Model po prostu uległ zmianie.

To jest główny problem z LLM w produkcji. Nie masz kontroli nad modelem. Jest to zależność, która ulega dryfowi. Jeśli nie będziesz jej mierzyć, Twoi użytkownicy powiedzą Ci, że przestał działać.

Nie możesz polegać na „odczuciach” czy zasadzie „wygląda mi to dobrze”. Potrzebujesz powtarzalnych sygnałów.

Tradycyjne oprogramowanie jest deterministyczne. Ten sam input oznacza ten sam output. LLM łamią tę zasadę. Są niedeterministyczne, a pojęcie „poprawności” jest często nieostre.

Aby tym zarządzać, potrzebujesz trzech warstw ewaluacji:

  • Ewaluacje offline: Uruchamiaj stały zestaw testowy przy każdej zmianie, aby wyłapać regresje.
  • Sprawdzanie bez odniesienia (reference-free): Używaj sygnałów takich jak wykrywanie halucynacji, gdy nie masz „poprawnej” odpowiedzi.
  • Monitoring produkcyjny: Obserwuj rzeczywisty ruch pod kątem dryfu i spadków jakości.

Fundamentem jest Golden Dataset. Nie używaj losowych próbek. Użyj starannie wyselekcjonowanego zestawu trudnych przypadków. Wykorzystaj puste inputy, dziwne przypadki brzegowe (edge cases) i prompty konfrontacyjne (adversarial prompts). 80 trafnych przykładów bije na głowę 8000 losowych.

Używając LLM jako sędziego, uważaj na te błędy poznawcze (biases):

  • Position bias (błąd pozycji): Sędziowie często faworyzują pierwszą odpowiedź, którą zobaczą. Napraw to, wykonując porównania w obu kolejnościach.
  • Verbosity bias (błąd gadatliwości): Sędziowie nagradzają dłuższe odpowiedzi, nawet jeśli są mniej klarowne.
  • Self-enhancement bias (błąd autowzmocnienia): Modele preferują teksty ze swojej własnej rodziny. Używaj różnych rodzin modeli do oceniania wyników.

Do monitorowania w czasie rzeczywistym użyj RAG Triad, aby sprawdzić:

  • Faithfulness (Wierność): Czy odpowiedź trzyma się kontekstu?
  • Answer relevance (Istotność odpowiedzi): Czy odpowiada na pytanie?
  • Context relevance (Istotność kontekstu): Czy system pobrał właściwe dokumenty?

Przestań traktować jakość modelu jako stałą właściwość. Traktuj ją jak opóźnienia (latency) lub współczynnik błędów. Ona się zmienia. Twoim zadaniem jest zauważenie, kiedy przestaje być dobra.

Zacznij od małych kroków. Napisz 20 złotych przykładów. Użyj ich do kontrolowania wdrożeń. Później dodaj tanie heurystyki produkcyjne.

Zespoły, które mogą spać spokojnie, to nie te, które mają najmądrzejsze modele. To te, które w ciągu godziny wiedzą, jeśli ich model staje się głupszy.

Źródło: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi