Confiabilidad de LLM-as-Judge en 2026

LLM-as-Judge impulsa casi todas las tablas de clasificación y modelos de recompensa hoy en día. Ocho nuevos estudios de junio de 2026 muestran un problema masivo. Estos jueces suelen ser poco fiables.

El hallazgo más importante: los jueces discrepan consigo mismos con la misma frecuencia que el lanzamiento de una moneda. Un estudio utilizó dos jueces de OpenAI en 29 tareas. Realizaron 50 pruebas para cada una. Los resultados fueron tan inconsistentes que los investigadores lo llamaron "El Juez de Cara o Cruz".

Estas son las principales formas en que estos jueces fallan:

Cómo deberías actuar:

Deja de preguntar qué juez es el mejor. Pregunta qué herramienta te ayuda a validar los resultados frente a las etiquetas humanas más rápido.

Fuente: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca