𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁 𝗖𝗵𝗲𝗰𝗸𝗲𝗱 𝗘𝘃𝗲𝗿𝘆𝘁𝗵𝗶𝗻𝗴. 𝗜𝘁 𝗪𝗮𝘀 𝗦𝘁𝗶𝗹𝗹 𝗪𝗿𝗼𝗻𝗴.

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorial8 часов назад2мин чтения

Ваш агент проверил всё. Но результат всё равно был неверным.

Я запускаю мультиагентный рабочий процесс. Одна модель проектирует. Другая пишет код. Третья его проверяет. Я утверждаю финальный результат.

Недавно через этот конвейер прошли три сбоя. Каждый агент выполнил свою работу безупречно. Система была последовательной, но при этом последовательно ошибалась.

Это не проблема интеллекта. Это проблема границ. Агент делает именно то, что вы просите, в рамках предоставленного контекста. Он не будет самостоятельно искать новые вещи для проверки.

Вот три реальных примера сбоев и способы их исправления:

Успех, скрывающий ошибку ETL-конвейер извлекал данные из API. Сессия API истекла. Вместо кода ошибки API вернул HTTP 200 с сообщением об ошибке внутри JSON. Агент проверил наличие кода ошибки, не нашел его и решил, что данные валидны.

Решение: Используйте семантическую валидацию. Не проверяйте просто факт успешного вызова. Проверяйте, соответствует ли возвращенная структура данных и количество строк ожидаемым значениям.

Отсутствующие артефакты Генератор кода создал C-файлы для чипа. Рецензент подтвердил, что код корректен. Однако генератор так и не создал необходимый файл таблицы виджетов. Рецензент проверил существующие файлы, но не проверил наличие отсутствующих.

Решение: Проверяйте полноту выходных данных. Всегда составляйте список необходимых файлов заранее. Перед переходом к следующему шагу убедитесь, что каждый файл существует и не пуст.

Ложные технические утверждения Папка SDK позиционировалась как предназначенная для чипа RISC-V, но в комментариях в заголовках говорилось, что она для процессора CSKY. Агент доверился названию папки и комментариям. Он проигнорировал фактические машинные инструкции, которые доказывали, что утверждение неверно.

Решение: Используйте проверку по фактическим данным (ground-truth). Если файл содержит какое-либо утверждение, проверьте его с помощью команды. Не доверяйте комментариям или названиям директорий. Доверяйте только «сырым» данным.

Агенты будут проверять только то, что вы им велели. Они не спросят: «Что еще может быть не так?»

Вы должны проектировать границы. Вы должны создавать контрольные точки проверки на границах вашего рабочего процесса.

Источник: https://dev.to/antonio_zhu_e726fd856cd86/your-agent-checked-everything-it-was-still-wrong-18kd

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi

𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁 𝗖𝗵𝗲𝗰𝗸𝗲𝗱 𝗘𝘃𝗲𝗿𝘆𝘁𝗵𝗶𝗻𝗴. 𝗜𝘁 𝗪𝗮𝘀 𝗦𝘁𝗶𝗹𝗹 𝗪𝗿𝗼𝗻𝗴.

Продолжить чтение

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝟳 𝗖𝗿𝗶𝘁𝗶𝗰𝗮𝗹 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗖𝗼𝗺𝗺𝗼𝗻 𝗣𝗶𝘁𝗳𝗮𝗹𝗹𝘀 𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗘𝗺𝗮𝗶𝗹 𝗔𝗴𝗲𝗻𝘁𝘀

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗗𝗼𝗻’𝘁 𝗝𝘂𝘀𝘁 𝗛𝗮𝗰𝗸. 𝗧𝗵𝗲𝘆 𝗖𝗵𝗲𝗮𝘁 𝗧𝗵𝗲𝗺𝘀𝗲𝗹𝘃𝗲𝘀