Рейтинги ИИ-агентов вводят в заблуждение при сдвиге распределения
Современные рейтинги ИИ-агентов работают некорректно.
Большинство рейтингов сводят показатели агента к одному единственному баллу. Затем они сортируют агентов от самого высокого к самому низкому. В отчетах это выглядит хорошо, но в реальном мире такая система дает сбой.
Новая работа IBM под названием Beyond Static Leaderboards объясняет, почему это происходит.
Проблема: Агрегированные показатели
Один средний балл — это слабый сигнал для развертывания. Оценка должна давать ответ на вопрос, какого агента стоит выпускать в продакшн. Если лучший агент в бенчмарке не является лучшим в вашей рабочей среде, значит, рейтинг вас обманул.
IBM обнаружила, что рейтинги, основанные на агрегированных показателях, не сохраняются при изменении условий. Это называется сдвигом распределения (distribution shift).
Аналогия: Спринтеры на ветру
- Представьте, что вы оцениваете спринтеров в помещении на беговой дорожке без ветра.
- Спринтер А побеждает. Спринтер Б занимает второе место.
- Теперь перенесите забег на улицу, где дует сильный ветер.
- Рейтинг меняется. Спринтер Б побеждает. Спринтер А опускается на третье место.
Секундомер в помещении не ошибся. Он измерял скорость в конкретных условиях. Он просто не мог предсказать, как бегуны проявят себя при ветре.
Решение: Прогностическая валидность
IBM предлагает использовать прогностическую валидность (predictive validity) вместо простых сырых баллов.
Прогностическая валидность измеряет ранговую корреляцию между бенчмарком и результатами в реальном мире. Она задает простой вопрос: сохраняется ли порядок агентов при изменении среды?
- Высокая прогностическая валидность: рейтинг предсказывает победителя в реальных условиях.
- Низкая прогностическая валидность: рейтинг указывает на неверного агента.
Ключевые понятия:
- In-sample: конкретные задачи, используемые в бенчмарке.
- Out-of-distribution: новые задачи, новые инструменты или иные данные, встречающиеся при развертывании.
- Rank instability: когда небольшое изменение задач полностью меняет порядок в рейтинге.
Перестаньте относиться к бенчмаркам как к простым таблицам со счетом. Относитесь к ним как к инструментам измерения. Если инструмент не может предсказать результат, который важен для вас, он бесполезен для продакшна.
Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi
