Agent Leaderboards Mislead Under Distribution Shift

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorial2 недели назад2мин чтения

Agent Leaderboards Mislead Under Distribution Shift

В этой статье

Рейтинги ИИ-агентов вводят в заблуждение при сдвиге распределения

Современные рейтинги ИИ-агентов работают некорректно.

Большинство рейтингов сводят показатели агента к одному единственному баллу. Затем они сортируют агентов от самого высокого к самому низкому. В отчетах это выглядит хорошо, но в реальном мире такая система дает сбой.

Новая работа IBM под названием Beyond Static Leaderboards объясняет, почему это происходит.

Проблема: Агрегированные показатели

Один средний балл — это слабый сигнал для развертывания. Оценка должна давать ответ на вопрос, какого агента стоит выпускать в продакшн. Если лучший агент в бенчмарке не является лучшим в вашей рабочей среде, значит, рейтинг вас обманул.

IBM обнаружила, что рейтинги, основанные на агрегированных показателях, не сохраняются при изменении условий. Это называется сдвигом распределения (distribution shift).

Аналогия: Спринтеры на ветру

Представьте, что вы оцениваете спринтеров в помещении на беговой дорожке без ветра.
Спринтер А побеждает. Спринтер Б занимает второе место.
Теперь перенесите забег на улицу, где дует сильный ветер.
Рейтинг меняется. Спринтер Б побеждает. Спринтер А опускается на третье место.

Секундомер в помещении не ошибся. Он измерял скорость в конкретных условиях. Он просто не мог предсказать, как бегуны проявят себя при ветре.

Решение: Прогностическая валидность

IBM предлагает использовать прогностическую валидность (predictive validity) вместо простых сырых баллов.

Прогностическая валидность измеряет ранговую корреляцию между бенчмарком и результатами в реальном мире. Она задает простой вопрос: сохраняется ли порядок агентов при изменении среды?

Высокая прогностическая валидность: рейтинг предсказывает победителя в реальных условиях.
Низкая прогностическая валидность: рейтинг указывает на неверного агента.

Ключевые понятия:

In-sample: конкретные задачи, используемые в бенчмарке.
Out-of-distribution: новые задачи, новые инструменты или иные данные, встречающиеся при развертывании.
Rank instability: когда небольшое изменение задач полностью меняет порядок в рейтинге.

Перестаньте относиться к бенчмаркам как к простым таблицам со счетом. Относитесь к ним как к инструментам измерения. Если инструмент не может предсказать результат, который важен для вас, он бесполезен для продакшна.

Источник: https://dev.to/pueding/agent-leaderboards-mislead-under-distribution-shift-ibm-predictive-validity-4d0c

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi

Agent Leaderboards Mislead Under Distribution Shift

Проблема: Агрегированные показатели

Аналогия: Спринтеры на ветру

Решение: Прогностическая валидность

Ключевые понятия:

Продолжить чтение

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗗𝗼𝗻’𝘁 𝗝𝘂𝘀𝘁 𝗛𝗮𝗰𝗸. 𝗧𝗵𝗲𝘆 𝗖𝗵𝗲𝗮𝘁 𝗧𝗵𝗲𝗺𝘀𝗲𝗹𝘃𝗲𝘀

Как не дать ИИ выдавать умозаключения за факты

AI Agent Evaluation Ends Too Early