Рейтинги ИИ-агентов вводят в заблуждение при сдвиге распределения

Современные рейтинги ИИ-агентов работают некорректно.

Большинство рейтингов сводят показатели агента к одному единственному баллу. Затем они сортируют агентов от самого высокого к самому низкому. В отчетах это выглядит хорошо, но в реальном мире такая система дает сбой.

Новая работа IBM под названием Beyond Static Leaderboards объясняет, почему это происходит.

Проблема: Агрегированные показатели

Один средний балл — это слабый сигнал для развертывания. Оценка должна давать ответ на вопрос, какого агента стоит выпускать в продакшн. Если лучший агент в бенчмарке не является лучшим в вашей рабочей среде, значит, рейтинг вас обманул.

IBM обнаружила, что рейтинги, основанные на агрегированных показателях, не сохраняются при изменении условий. Это называется сдвигом распределения (distribution shift).

Аналогия: Спринтеры на ветру

  • Представьте, что вы оцениваете спринтеров в помещении на беговой дорожке без ветра.
  • Спринтер А побеждает. Спринтер Б занимает второе место.
  • Теперь перенесите забег на улицу, где дует сильный ветер.
  • Рейтинг меняется. Спринтер Б побеждает. Спринтер А опускается на третье место.

Секундомер в помещении не ошибся. Он измерял скорость в конкретных условиях. Он просто не мог предсказать, как бегуны проявят себя при ветре.

Решение: Прогностическая валидность

IBM предлагает использовать прогностическую валидность (predictive validity) вместо простых сырых баллов.

Прогностическая валидность измеряет ранговую корреляцию между бенчмарком и результатами в реальном мире. Она задает простой вопрос: сохраняется ли порядок агентов при изменении среды?

  • Высокая прогностическая валидность: рейтинг предсказывает победителя в реальных условиях.
  • Низкая прогностическая валидность: рейтинг указывает на неверного агента.

Ключевые понятия:

  • In-sample: конкретные задачи, используемые в бенчмарке.
  • Out-of-distribution: новые задачи, новые инструменты или иные данные, встречающиеся при развертывании.
  • Rank instability: когда небольшое изменение задач полностью меняет порядок в рейтинге.

Перестаньте относиться к бенчмаркам как к простым таблицам со счетом. Относитесь к ним как к инструментам измерения. Если инструмент не может предсказать результат, который важен для вас, он бесполезен для продакшна.

Источник: https://dev.to/pueding/agent-leaderboards-mislead-under-distribution-shift-ibm-predictive-validity-4d0c

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi