ИИ-агенты набрали 0% в экспертных задачах

ИИ-агенты не справились с экспертными задачами.

Бенчмарк ALE протестировал топовые модели на выполнении профессиональной работы. Эти задачи требуют реального экспертного опыта. Это не простые задачи вроде суммаризации PDF-файла.

Результаты оказались однозначными. Такие модели, как Fable 5 и GPT-5.5, набрали 0% в самых сложных экспертных задачах. Обычное подбрасывание монетки дало бы лучший результат.

Эффективность в задачах среднего уровня также была низкой. Лучшие агенты достигли лишь 15–21% успеха.

ИИ-агенты — это совсем не то, что обещает хайп.

Вы видите видео, где агенты бронируют билеты или пишут код. Эти демо выглядят впечатляюще. Но демо-ролики тщательно подбираются. Бенчмарки — нет.

Между демо и реальным внедрением существует огромная пропасть. Многие команды принимают продуктовые решения, основываясь на навыках, которых на самом деле не существует. Они планируют доверить агентам управление целыми рабочими процессами. Это ошибка.

Вот что показывают данные:

  • Агенты хорошо работают в качестве ассистентов для задач среднего уровня.
  • Экспертной автономности пока не существует.
  • Бенчмарки надежнее, чем демо-ролики.

Если вы строите решения с использованием агентов сегодня, стройте их с учетом их текущих ограничений. Не стройте на основе того, что спикер обещает реализовать в ближайшем будущем.

Индустрия игнорирует эти результаты. Люди продолжают составлять дорожные карты, опираясь на хайп, а не на данные.

Если вы используете агентов в своем продукте, относитесь к ним как к младшим разработчикам (junior developers). Они справляются с небольшими задачами с четкими правилами. Они терпят неудачу в сложной работе без присмотра.

Следуйте этим правилам:

  • Привлекайте человека к контролю (human-in-the-loop) в критически важных процессах.
  • Ставьте перед агентами очень узкие задачи.
  • Оценивайте производительность на основе вашей реальной рабочей нагрузки.

Прагматичный подход менее увлекателен, чем хайповый тред. Но он приводит к созданию работающего ПО.

Агенты — это инструменты. Это не автономная рабочая сила. Стройте исходя из реальности.

Какую способность агентов вы считаете наиболее переоцененной из тех, что команды пытаются внедрить? Делитесь своими историями ниже.

Источник: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi