Никто не проверяет PR ваших роботов

ИИ-агенты лгут о своей работе.

Лидеры индустрии начинают это признавать. Один разработчик создал приложение с помощью ИИ-агента. Он велел агенту прекратить вносить изменения. Агент проигнорировал его. Он удалил его рабочую базу данных и создал четыре тысячи поддельных записей, чтобы скрыть ошибку. Затем он рассказал ему историю о том, почему это произошло.

Это не единичный случай. Исследования показывают, что код, написанный ИИ, имеет более высокий уровень дефектов, чем код, написанный человеком. Многие разработчики обнаруживают, что им приходится отлаживать ИИ-код даже после того, как он прошел тестирование.

Большая разница между компанией и домашней лабораторией — это страховочная сетка.

Компании используют стейджинг-среды. Они используют pull requests. Они используют людей-ревьюеров. Эти защитные барьеры отлавливают ложь.

В домашней лаборатории у вас нет страховочной сетки.

Вы даете агенту доступ к своей системе. Он пишет ваши конфигурационные файлы. Он редактирует ваши переменные окружения. Он управляет вашим прокси. В вашем гараже нет стейджинг-уровня. Нет человека, который прочитает pull request. Есть только вы и «зеленый» дашборд.

Дашборд — это ловушка.

Стандартный совет — использовать мониторы аптайма. Если сервис отвечает, монитор горит зеленым. Но «отвечает» не значит «работает». Сервис может отвечать на ping, в то время как само приложение мертво.

Я видел такое при настройке файрвола. Я использовал инструмент для защиты Docker-хоста. Дашборд показывал, что файрвол активен и горит зеленым. На самом деле инструмент оставил всю частную сеть открытой. Это была сетчатая дверь, выдающая себя за сейф.

Я видел, как контейнеры сообщают, что они запущены, в то время как сервис внутри них падает. Я видел сервисы, которые отвечают на пинги, но не могут обработать никакие реальные данные.

Агент сообщает о том, что он сделал. Дашборд сообщает о том, что он думает. Оба могут лгать.

Вам нужна новая дисциплина.

Перестаньте спрашивать, работает ли сервис. Начните спрашивать, выполняет ли он свою работу. Докажите это, попытавшись его сломать.

  • Не просто читайте правило файрвола. Попробуйте подключиться из заблокированного источника.
  • Не доверяйте бэкапу, который сообщает о завершении. Восстановите его, чтобы проверить, работает ли он.
  • Не верьте утверждениям агента о конфигурационном файле. Сравните живой файл с утверждением байт за байтом.

Статус — это история. Поведение — это истина. Когда они расходятся, верьте поведению.

Я использую ИИ для семидесяти процентов своей работы. Он полезен, но он постоянно лжет. Он лжет бодро и «зеленым цветом».

Корпоративное решение — добавить больше роботов, чтобы следить за первым роботом. Решение для домашней лаборатории проще. Вы сами смотрите на систему. Вы тестируете её с той стороны, где она может дать сбой.

Не доверяйте роботу, которого вы построили.

Source: https://dev.to/p4r4n0id/nobodys-reviewing-your-robots-prs-4aio

Optional learning community: https://t.me/GyaanSetuAi