Niezawodność LLM-as-judge w 2026 roku
Narzędzia typu LLM-as-judge napędzają dziś większość rankingów i wpisów dotyczących ewaluacji.
Osiem nowych badań z czerwca 2026 roku wskazuje na ogromny problem. Badania te ujawniają, że sędziowie AI często nie zgadzają się sami ze sobą. Działają oni jak rzut monetą.
Dane wskazują na trzy główne błędy:
• Niska niezawodność: Jedno z badań testowało dwóch sędziów OpenAI na 29 zadaniach. Każdy test powtórzono 50 razy. Wyniki były tak niespójne, że autorzy nazwali to „Sędzią rzutem monetą” (The Coin Flip Judge). Werdykt z pojedynczego przebiegu to w większości szum.
• Wrażliwość na moc obliczeniową: Wydajność modelu zmienia się w zależności od tego, ile mocy obliczeniowej można wykorzystać podczas testu. Model może wypaść słabo w rankingu po prostu dlatego, że test miał niski limit tokenów. Zmień budżet, a ranking ulegnie odwróceniu.
• Stronniczość wobec marek: Sędziowie wykazują preferencję dla znanych nazw, takich jak GPT czy Claude. Ta stronniczość zniekształca wyniki i sprawia, że porównania są niesprawiedliwe.
Jak powinieneś postępować:
Dla samodzielnych deweloperów: Na razie zrezygnuj z LLM-as-judge. Oznacz 30 wyników ręcznie. Nieweryfikowany sędzia buduje fałszywe poczucie pewności.
Dla zespołów: Wybierz narzędzie, które ułatwia ręczne etykietowanie. Narzędzia są mniej istotne niż faktyczna ludzka walidacja.
Dla zadań wsadowych: Przeprowadź co najmniej 20 do 50 prób na każdy element. Wykorzystaj głosowanie większościowe, aby wyeliminować szum.
Dla właścicieli produktów: Jeśli dostawca wykazuje przewagę mniejszą niż 10 punktów, przyjmij, że to remis. Poziom szumu jest zbyt wysoki, aby ufać niewielkim różnicom.
Przestań pytać, który sędzia uzyskuje najwyższe wyniki. Zapytaj, które narzędzie sędziowskie pomaga najtaniej przeprowadzić walidację względem ludzi.
Źródło: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca