ИИ-агенты набрали 0% в экспертных задачах

Translated for your language. Читать оригинал.

AI-assisted draft.

позавчера2мин чтения

ИИ-агенты набрали 0% в экспертных задачах

ИИ-агенты не справились с экспертными задачами.

Бенчмарк ALE протестировал топовые модели на выполнении профессиональной работы. Эти задачи требуют реального экспертного опыта. Это не простые задачи вроде суммаризации PDF-файла.

Результаты оказались однозначными. Такие модели, как Fable 5 и GPT-5.5, набрали 0% в самых сложных экспертных задачах. Обычное подбрасывание монетки дало бы лучший результат.

Эффективность в задачах среднего уровня также была низкой. Лучшие агенты достигли лишь 15–21% успеха.

ИИ-агенты — это совсем не то, что обещает хайп.

Вы видите видео, где агенты бронируют билеты или пишут код. Эти демо выглядят впечатляюще. Но демо-ролики тщательно подбираются. Бенчмарки — нет.

Между демо и реальным внедрением существует огромная пропасть. Многие команды принимают продуктовые решения, основываясь на навыках, которых на самом деле не существует. Они планируют доверить агентам управление целыми рабочими процессами. Это ошибка.

Вот что показывают данные:

Агенты хорошо работают в качестве ассистентов для задач среднего уровня.
Экспертной автономности пока не существует.
Бенчмарки надежнее, чем демо-ролики.

Если вы строите решения с использованием агентов сегодня, стройте их с учетом их текущих ограничений. Не стройте на основе того, что спикер обещает реализовать в ближайшем будущем.

Индустрия игнорирует эти результаты. Люди продолжают составлять дорожные карты, опираясь на хайп, а не на данные.

Если вы используете агентов в своем продукте, относитесь к ним как к младшим разработчикам (junior developers). Они справляются с небольшими задачами с четкими правилами. Они терпят неудачу в сложной работе без присмотра.

Следуйте этим правилам:

Привлекайте человека к контролю (human-in-the-loop) в критически важных процессах.
Ставьте перед агентами очень узкие задачи.
Оценивайте производительность на основе вашей реальной рабочей нагрузки.

Прагматичный подход менее увлекателен, чем хайповый тред. Но он приводит к созданию работающего ПО.

Агенты — это инструменты. Это не автономная рабочая сила. Стройте исходя из реальности.

Какую способность агентов вы считаете наиболее переоцененной из тех, что команды пытаются внедрить? Делитесь своими историями ниже.

Источник: https://dev.to/adioof/ai-agents-scored-0-on-expert-tasks-the-hype-machine-doesnt-care-2bp1

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi

ИИ-агенты набрали 0% в экспертных задачах

Продолжить чтение

𝗧𝗵𝗲 𝗕𝗹𝗶𝗻𝗱 𝗦𝗽𝗼𝘁 𝗢𝗳 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

Амбиентные ИИ-агенты: 7 ошибок, которых стоит избегать

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺