Ваше демо агента работает. В этом и заключается ловушка.

Я создаю ИИ-агентов для компаний. Часто я наблюдаю одну и ту же закономерность. Модель отлично работает в демо. Вы выпускаете продукт. А затем в продакшене она дает сбой в каждом третьем случае. И никто не знает почему.

Разрыв между демо и продакшном — это математика. Как только вы поймете математику, вы начнете строить иначе.

Если каждый шаг вашего агента надежен на 95%, это звучит неплохо. Но агенты используют цепочки шагов. Если вы объедините десять шагов в цепочку, вероятность успеха упадет до 60%. Если вы используете двадцать шагов, вероятность успеха упадет до 36%.

В реальной работе шаги часто имеют уровень ошибок от 10% до 20%. Если у агента восемь шагов с надежностью 85%, он будет ошибаться в 75% случаев.

Проблема не в модели. Проблема в накоплении вероятности.

Демо показывает один идеальный сценарий (happy path). В нем используются чистые входные данные и короткие цепочки. Продакшн использует «грязные» данные от сотен пользователей. В нем используются длинные цепочки, включающие скрытые шаги.

Сбой агента не выглядит как краш системы. Он выглядит как тихая ошибка.

На шаге 3 неверно считывается поле. Выход все равно выглядит как валидный JSON. На шаге 4 эти неверные данные используются для рассуждений. Шаги с 5 по 8 строятся на этой ошибке. Итоговый ответ неверен, но выглядит правдоподобно. Нет никакого лога ошибок, который показал бы, где именно все пошло не так.

Перестаньте говорить, что модель галлюцинировала. Модель просто передала неверные данные, которые получила. Вашей системе не хватило контрольной точки (checkpoint), чтобы отловить ошибку на шаге 3.

Перестаньте относиться к агенту как к промпту. Начните относиться к нему как к системе.

Следуйте этим правилам, чтобы создавать надежных агентов:

  • Сохраняйте состояние вне агента. Храните состояние в базе данных, а не в контексте диалога. Если процесс прервется на шаге 6, вы сможете возобновить его с шага 6. Вам не придется перезапускать всю цепочку.

  • Проверяйте данные на границах. Проверяйте каждый вход и выход на соответствие схеме. Ловите ошибку именно на том шаге, где она возникает. Это превращает загадку в восстановимую ошибку.

  • Сделайте побочные эффекты идемпотентными. Вы должны иметь возможность повторить шаги в случае их сбоя. Если шаг отправляет email или списывает деньги с карты, используйте ключ идемпотентности. Это предотвратит дублирование действий при повторной попытке.

  • Используйте эвалы (evals) в вашем CI. Поведение агента меняется с каждой правкой. Изменение промпта может исправить один случай, но сломать пять других. Используйте тестовый набор, чтобы автоматически отлавливать такие регрессии.

Переход от демо к реальному продукту — это вопрос инженерии. Это вопрос обработки ошибок, управления состоянием и наблюдаемости (observability). Это не вопрос «улучшения промптов».

Если ваш агент работает нестабильно в продакшене, не ищите модель побольше. Ищите шаг, на котором цепочка пошла не так. Спросите себя, почему ваша система не поймала ошибку именно там.

Source: https://dev.to/sagar_jain4010/your-agent-demo-works-thats-the-trap-4joc

Optional learning community: https://t.me/GyaanSetuAi