La fiabilité du LLM-as-Judge en 2026

Le LLM-as-Judge alimente presque tous les classements et modèles de récompense aujourd'hui. Huit nouvelles études de juin 2026 révèlent un problème majeur. Ces juges sont souvent peu fiables.

La conclusion principale : les juges sont en désaccord avec eux-mêmes aussi souvent qu'un lancer de pièce. Une étude a utilisé deux juges OpenAI sur 29 tâches, en effectuant 50 essais pour chacune. Les résultats étaient si incohérents que les chercheurs l'ont surnommé « The Coin Flip Judge ».

Voici les principales raisons pour lesquelles ces juges échouent :

Comment vous devriez agir :

Cessez de demander quel juge est le meilleur. Demandez-vous quel outil vous aide à valider les résultats par rapport aux étiquettes humaines le plus rapidement possible.

Source : https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca