𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

📅3 hours ago⏱1 min read

Надежность LLM-as-Judge в 2026 году

LLM-as-Judge используется почти в каждом лидерборде и модели вознаграждения (reward model) сегодня. Восемь новых исследований от июня 2026 года выявили огромную проблему: эти судьи часто ненадежны.

Главный вывод: судьи расходятся во мнениях друг с другом так же часто, как при подбрасывании монетки. В одном исследовании использовались два судьи от OpenAI для выполнения 29 задач. Для каждой задачи было проведено 50 испытаний. Результаты оказались настолько непоследовательными, что исследователи прозвали этот метод «Судья-монетка» (The Coin Flip Judge).

Вот основные причины, по которым эти судьи допускают ошибки:

Низкая надежность: даже при фиксированных настройках судьи выбирают разных победителей для одних и тех же входных данных. Лидерство в лидерборде по результатам одного прогона часто является просто шумом.
Вычислительная предвзятость (Compute bias): модель кажется лучше или хуже в зависимости от того, какой объем вычислительных ресурсов выделяется на оценку. Если лимит теста слишком мал, вы не увидите истинных возможностей модели.
Несоответствие целей: в сфере образования модели, побеждающие в бенчмарках, часто не способны реально обучать студентов. Они решают задачи, но не способствуют процессу обучения.
Предвзятость к брендам: судьи отдают предпочтение известным именам, таким как GPT или Claude. Это искажает результаты.

Как вам следует действовать:

Для соло-разработчиков: откажитесь от LLM-as-Judge. Вместо этого вручную разметьте 30 ответов. Плохой судья создает ложную уверенность.
Для команд: выберите инструмент, который упрощает ручную разметку людьми. Инструментарий менее важен, чем само выполнение ручной работы.
Для задач с большим объемом данных: проводите не менее 20–50 испытаний для каждого элемента. Используйте мажоритарное голосование, чтобы определить реального победителя.
Для владельцев бизнеса: если вендор заявляет о преимуществе менее чем в 10 баллов, считайте это ничьей. Шум от судьи, скорее всего, превышает это преимущество.

Перестаньте спрашивать, какой судья лучше. Спрашивайте, какой инструмент помогает быстрее всего проверить результаты, сравнив их с человеческой разметкой.

Источник: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

Нужного вам бенчмарка LLM не существует

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

𝗟𝗟𝗠 𝗔𝘀 𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲