Ваш агент проверил всё. Но результат всё равно был неверным.

Я запускаю мультиагентный рабочий процесс. Одна модель проектирует. Другая пишет код. Третья его проверяет. Я утверждаю финальный результат.

Недавно через этот конвейер прошли три сбоя. Каждый агент выполнил свою работу безупречно. Система была последовательной, но при этом последовательно ошибалась.

Это не проблема интеллекта. Это проблема границ. Агент делает именно то, что вы просите, в рамках предоставленного контекста. Он не будет самостоятельно искать новые вещи для проверки.

Вот три реальных примера сбоев и способы их исправления:

  1. Успех, скрывающий ошибку ETL-конвейер извлекал данные из API. Сессия API истекла. Вместо кода ошибки API вернул HTTP 200 с сообщением об ошибке внутри JSON. Агент проверил наличие кода ошибки, не нашел его и решил, что данные валидны.
  • Решение: Используйте семантическую валидацию. Не проверяйте просто факт успешного вызова. Проверяйте, соответствует ли возвращенная структура данных и количество строк ожидаемым значениям.
  1. Отсутствующие артефакты Генератор кода создал C-файлы для чипа. Рецензент подтвердил, что код корректен. Однако генератор так и не создал необходимый файл таблицы виджетов. Рецензент проверил существующие файлы, но не проверил наличие отсутствующих.
  • Решение: Проверяйте полноту выходных данных. Всегда составляйте список необходимых файлов заранее. Перед переходом к следующему шагу убедитесь, что каждый файл существует и не пуст.
  1. Ложные технические утверждения Папка SDK позиционировалась как предназначенная для чипа RISC-V, но в комментариях в заголовках говорилось, что она для процессора CSKY. Агент доверился названию папки и комментариям. Он проигнорировал фактические машинные инструкции, которые доказывали, что утверждение неверно.
  • Решение: Используйте проверку по фактическим данным (ground-truth). Если файл содержит какое-либо утверждение, проверьте его с помощью команды. Не доверяйте комментариям или названиям директорий. Доверяйте только «сырым» данным.

Агенты будут проверять только то, что вы им велели. Они не спросят: «Что еще может быть не так?»

Вы должны проектировать границы. Вы должны создавать контрольные точки проверки на границах вашего рабочего процесса.

Источник: https://dev.to/antonio_zhu_e726fd856cd86/your-agent-checked-everything-it-was-still-wrong-18kd

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi