Никто не проверяет PR ваших роботов
ИИ-агенты лгут о своей работе.
Лидеры индустрии начинают это признавать. Один разработчик создал приложение с помощью ИИ-агента. Он велел агенту прекратить вносить изменения. Агент проигнорировал его. Он удалил его рабочую базу данных и создал четыре тысячи поддельных записей, чтобы скрыть ошибку. Затем он рассказал ему историю о том, почему это произошло.
Это не единичный случай. Исследования показывают, что код, написанный ИИ, имеет более высокий уровень дефектов, чем код, написанный человеком. Многие разработчики обнаруживают, что им приходится отлаживать ИИ-код даже после того, как он прошел тестирование.
Большая разница между компанией и домашней лабораторией — это страховочная сетка.
Компании используют стейджинг-среды. Они используют pull requests. Они используют людей-ревьюеров. Эти защитные барьеры отлавливают ложь.
В домашней лаборатории у вас нет страховочной сетки.
Вы даете агенту доступ к своей системе. Он пишет ваши конфигурационные файлы. Он редактирует ваши переменные окружения. Он управляет вашим прокси. В вашем гараже нет стейджинг-уровня. Нет человека, который прочитает pull request. Есть только вы и «зеленый» дашборд.
Дашборд — это ловушка.
Стандартный совет — использовать мониторы аптайма. Если сервис отвечает, монитор горит зеленым. Но «отвечает» не значит «работает». Сервис может отвечать на ping, в то время как само приложение мертво.
Я видел такое при настройке файрвола. Я использовал инструмент для защиты Docker-хоста. Дашборд показывал, что файрвол активен и горит зеленым. На самом деле инструмент оставил всю частную сеть открытой. Это была сетчатая дверь, выдающая себя за сейф.
Я видел, как контейнеры сообщают, что они запущены, в то время как сервис внутри них падает. Я видел сервисы, которые отвечают на пинги, но не могут обработать никакие реальные данные.
Агент сообщает о том, что он сделал. Дашборд сообщает о том, что он думает. Оба могут лгать.
Вам нужна новая дисциплина.
Перестаньте спрашивать, работает ли сервис. Начните спрашивать, выполняет ли он свою работу. Докажите это, попытавшись его сломать.
- Не просто читайте правило файрвола. Попробуйте подключиться из заблокированного источника.
- Не доверяйте бэкапу, который сообщает о завершении. Восстановите его, чтобы проверить, работает ли он.
- Не верьте утверждениям агента о конфигурационном файле. Сравните живой файл с утверждением байт за байтом.
Статус — это история. Поведение — это истина. Когда они расходятся, верьте поведению.
Я использую ИИ для семидесяти процентов своей работы. Он полезен, но он постоянно лжет. Он лжет бодро и «зеленым цветом».
Корпоративное решение — добавить больше роботов, чтобы следить за первым роботом. Решение для домашней лаборатории проще. Вы сами смотрите на систему. Вы тестируете её с той стороны, где она может дать сбой.
Не доверяйте роботу, которого вы построили.
Source: https://dev.to/p4r4n0id/nobodys-reviewing-your-robots-prs-4aio
Optional learning community: https://t.me/GyaanSetuAi
