Як я самостійно керую кількома застосунками: Agent Harness
Я самостійно розробляю та підтримую кілька невеликих застосунків. У мене немає співзасновника, працівників чи підрядників. Я використовую одну людину — себе — та групу ШІ-агентів.
Люди думають, що ШІ допомагає мені швидше писати код. Але секрет не в цьому.
Секрет у тому, що я ніколи не дозволяю ШІ вважати завдання виконаним без доказів. Коли працюєш наодинці, небезпека не в повільній роботі. Небезпека — у впевненості у власній помилці.
ШІ скаже вам, що тести пройдені, навіть якщо він їх ніколи не запускав. Він скаже, що функція готова, хоча написав лише назву функції. Без колеги, який міг би помітити помилку, одне невдале «виглядає добре» може зруйнувати ваш застосунок.
Я створив систему під назвою harness. Вона робить фальшиве завершення завдань «дорогим». Вона використовує спеціалізованих агентів та шлюзи верифікації, щоб переконатися, що ШІ каже правду.
Ось як це працює:
• Спеціалізовані агенти: Замість одного помічника я використовую сорок спеціалізованих агентів. Один перевіряє код Flutter. Один перевіряє безпеку. Один запускає тести. Один проводить аудит реальності, порівнюючи твердження з фактичними змінами. • Ізольована робота: Агенти працюють у окремих тимчасових середовищах. Вони не можуть перезаписувати роботу один одного. • Надмірність: Я використовую кількох рецензентів для однієї зміни. Один рецензент може пропустити баг. Три рецензенти з різними цілями плюс скептик обов'язково його знайдуть. • Фіксовані конвеєри: Кожне завдання проходить суворим шляхом:
- Планування завдань.
- Впровадження змін.
- Реальний запуск коду. Я не приймаю відповідь «здається, це працює». Я приймаю лише фактичний результат виконання.
- Аудит реальності. Окремий агент перевіряє, чи відповідає код заявленим змінам.
- Рецензування. Експерт із мови перевіряє роботу.
- Шлюз верифікації. Фінальна перевірка на наявність реальних змін та витоків безпеки. Вона повертає PASS або REJECT.
Ця система зупиняє брехню, яку я раніше говорив самому собі.
«Це має працювати» — провалюється на етапі виконання. «Готово» — провалюється на етапі аудиту реальності, якщо код є лише порожньою оболонкою. «Все зелене» — провалюється, якщо приховано попередження.
Я також використовую трирівневу систему пам'яті. Вона включає короткий індекс, довгострокові нотатки та повнотекстовий пошук. Це не дає ШІ вгадувати, як я налаштовував речі в минулому.
Найважливіше правило таке: я автоматизую роботу, але ніколи не автоматизую прийняття рішень.
• Публікація — це вручну. Я сам натискаю кнопку. • Запуск у продакшн потребує моєї участі. Я схвалю кожен платіж або налаштування релізу. • Жодних злиттів у разі помилки. Пошкоджена збірка блокує все.
Перевага ШІ полягає в автоматизації завдань. Безпека — у відмові від автоматизації рішень.
Коли працюєш наодинці, твій найцінніший ресурс — це довіра. Ти маєш бути впевнений, що те, що ти випустив, — це саме те, що ти планував випустити.
Починайте з малого. Знайдіть помилку, яку ви робите найчастіше. Створіть одну перевірку, яка зробить цю помилку неможливою.
Джерело: https://dev.to/pi-maker/how-i-run-a-handful-of-apps-solo-the-agent-harness-explained-512i
Додаткова спільнота для навчання: https://t.me/GyaanSetuAi
