Надежность LLM-as-Judge в 2026 году
LLM-as-Judge используется почти в каждом лидерборде и модели вознаграждения (reward model) сегодня. Восемь новых исследований от июня 2026 года выявили огромную проблему: эти судьи часто ненадежны.
Главный вывод: судьи расходятся во мнениях друг с другом так же часто, как при подбрасывании монетки. В одном исследовании использовались два судьи от OpenAI для выполнения 29 задач. Для каждой задачи было проведено 50 испытаний. Результаты оказались настолько непоследовательными, что исследователи прозвали этот метод «Судья-монетка» (The Coin Flip Judge).
Вот основные причины, по которым эти судьи допускают ошибки:
- Низкая надежность: даже при фиксированных настройках судьи выбирают разных победителей для одних и тех же входных данных. Лидерство в лидерборде по результатам одного прогона часто является просто шумом.
- Вычислительная предвзятость (Compute bias): модель кажется лучше или хуже в зависимости от того, какой объем вычислительных ресурсов выделяется на оценку. Если лимит теста слишком мал, вы не увидите истинных возможностей модели.
- Несоответствие целей: в сфере образования модели, побеждающие в бенчмарках, часто не способны реально обучать студентов. Они решают задачи, но не способствуют процессу обучения.
- Предвзятость к брендам: судьи отдают предпочтение известным именам, таким как GPT или Claude. Это искажает результаты.
Как вам следует действовать:
- Для соло-разработчиков: откажитесь от LLM-as-Judge. Вместо этого вручную разметьте 30 ответов. Плохой судья создает ложную уверенность.
- Для команд: выберите инструмент, который упрощает ручную разметку людьми. Инструментарий менее важен, чем само выполнение ручной работы.
- Для задач с большим объемом данных: проводите не менее 20–50 испытаний для каждого элемента. Используйте мажоритарное голосование, чтобы определить реального победителя.
- Для владельцев бизнеса: если вендор заявляет о преимуществе менее чем в 10 баллов, считайте это ничьей. Шум от судьи, скорее всего, превышает это преимущество.
Перестаньте спрашивать, какой судья лучше. Спрашивайте, какой инструмент помогает быстрее всего проверить результаты, сравнив их с человеческой разметкой.
Источник: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca