Оценка ИИ-агентов заканчивается слишком рано

Большинство людей считают, что оценка ИИ-агентов заканчивается в момент запуска. Видя высокий балл в бенчмарке, они полагают, что агент готов. Это ошибка.

Высокий балл часто означает лишь то, что агент прошел несколько конкретных сценариев. Это не значит, что он готов к реальному миру.

Современные бенчмарки имеют огромные пробелы. Анализ 15 основных бенчмарков показал:

  • Ни один бенчмарк не включал показатели безопасности или защищенности в свои оценки.
  • Ни один бенчмарк не учитывал экономическую эффективность.
  • 13 из 15 опирались исключительно на бинарный результат: успех или провал.
  • Ни один не достиг 50% готовности к развертыванию.

Тестировать только конечный результат опасно. Если агент дает правильный ответ, это кажется успехом. Но путь, которым он к нему пришел, может быть ошибочным.

Агент может:

  • Использовать неверные инструменты для получения правильного ответа.
  • Полностью пропускать этапы верификации.
  • Галлюцинировать фактами, но прийти к верному выводу.
  • Сжигать ваш бюджет постоянными повторными попытками.

Если агент службы поддержки оформит возврат средств на неверный счет, результат будет выглядеть нормально. Но агент потерпел неудачу.

Вы должны оценивать траекторию, а не только ответ.

Настоящая оценка должна охватывать следующие измерения:

  • Корректность инструментов и параметров.
  • Обоснованность (grounding) и точность.
  • Стоимость и задержка (latency).
  • Соблюдение политик и безопасность.
  • Восстановление после ошибок.

Перестаньте относиться к оценке как к отчету о запуске. Относитесь к ней как к непрерывному циклу.

Как работать лучше:

  • Создавать публичные бенчмарки для проверки возможностей.
  • Проводить офлайн-тесты перед релизом.
  • Мониторить продакшн-трейсы в реальном времени.
  • Фиксировать вызовы инструментов, аргументы и промежуточные решения.
  • Использовать неудачные продакшн-трейсы для улучшения ваших офлайн-датасетов.

Оценка — это проблема наблюдаемости (observability). Агент считается успешным только в том случае, если его поведение остается согласованным с вашими бизнес-целями, вашими инструментами и намерениями пользователя. Эти вещи меняются каждый день.

Не просто храните трейсы. Оценивайте их. Хранение трейсов без оценки — это всего лишь задача поиска. Офлайн-оценка без данных из продакшна — это просто театр.

Последним шагом оценки должен быть не балл. Последним шагом должен быть следующий трейс.

Source: https://dev.to/focused_dot_io/ai-agent-evaluation-ends-too-early-focused-labs-38aa

Optional learning community: https://t.me/GyaanSetuAi