Zuverlässigkeit von LLM-as-Judge im Jahr 2026

LLM-as-Judge treibt heute fast jedes Leaderboard und jedes Reward-Modell an. Acht neue Studien aus dem Juni 2026 zeigen ein massives Problem auf. Diese Richter sind oft unzuverlässig.

Die wichtigste Erkenntnis: Richter widersprechen sich selbst so oft wie bei einem Münzwurf. Eine Studie verwendete zwei OpenAI-Richter für 29 Aufgaben. Es wurden jeweils 50 Durchläufe durchgeführt. Die Ergebnisse waren so inkonsistent, dass Forscher sie als „The Coin Flip Judge“ bezeichneten.

Hier sind die Hauptgründe, warum diese Richter versagen:

So sollten Sie vorgehen:

Hören Sie auf zu fragen, welcher Richter der beste ist. Fragen Sie stattdessen, welches Tool Ihnen hilft, Ergebnisse am schnellsten gegen menschliche Labels zu validieren.

Quelle: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca