Niezawodność LLM-as-judge w 2026 roku

Narzędzia typu LLM-as-judge napędzają dziś większość rankingów i wpisów dotyczących ewaluacji.

Osiem nowych badań z czerwca 2026 roku wskazuje na ogromny problem. Badania te ujawniają, że sędziowie AI często nie zgadzają się sami ze sobą. Działają oni jak rzut monetą.

Dane wskazują na trzy główne błędy:

• Niska niezawodność: Jedno z badań testowało dwóch sędziów OpenAI na 29 zadaniach. Każdy test powtórzono 50 razy. Wyniki były tak niespójne, że autorzy nazwali to „Sędzią rzutem monetą” (The Coin Flip Judge). Werdykt z pojedynczego przebiegu to w większości szum.

• Wrażliwość na moc obliczeniową: Wydajność modelu zmienia się w zależności od tego, ile mocy obliczeniowej można wykorzystać podczas testu. Model może wypaść słabo w rankingu po prostu dlatego, że test miał niski limit tokenów. Zmień budżet, a ranking ulegnie odwróceniu.

• Stronniczość wobec marek: Sędziowie wykazują preferencję dla znanych nazw, takich jak GPT czy Claude. Ta stronniczość zniekształca wyniki i sprawia, że porównania są niesprawiedliwe.

Jak powinieneś postępować:

Przestań pytać, który sędzia uzyskuje najwyższe wyniki. Zapytaj, które narzędzie sędziowskie pomaga najtaniej przeprowadzić walidację względem ludzi.

Źródło: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca