Надежность LLM-as-Judge в 2026 году

LLM-as-Judge используется почти в каждом лидерборде и модели вознаграждения (reward model) сегодня. Восемь новых исследований от июня 2026 года выявили огромную проблему: эти судьи часто ненадежны.

Главный вывод: судьи расходятся во мнениях друг с другом так же часто, как при подбрасывании монетки. В одном исследовании использовались два судьи от OpenAI для выполнения 29 задач. Для каждой задачи было проведено 50 испытаний. Результаты оказались настолько непоследовательными, что исследователи прозвали этот метод «Судья-монетка» (The Coin Flip Judge).

Вот основные причины, по которым эти судьи допускают ошибки:

Как вам следует действовать:

Перестаньте спрашивать, какой судья лучше. Спрашивайте, какой инструмент помогает быстрее всего проверить результаты, сравнив их с человеческой разметкой.

Источник: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca