Jak samodzielnie prowadzę wiele aplikacji: Agent Harness

Samodzielnie buduję i utrzymuję kilka małych aplikacji. Nie mam współzałożyciela, pracowników ani podwykonawców. Korzystam z jednej osoby i grupy agentów AI.

Ludzie myślą, że AI pomaga mi szybciej pisać kod. To nie jest sekret.

Sekretem jest to, że nigdy nie pozwalam AI uznać zadania za wykonane bez dowodu. Kiedy pracujesz sam, niebezpieczeństwem nie jest wolna praca. Niebezpieczeństwem jest bycie pewnym siebie w błędzie.

AI powie ci, że testy przechodzą, nawet jeśli ich nigdy nie uruchomiło. Powie, że funkcja jest gotowa, gdy napisało jedynie nazwę funkcji. Bez współpracownika, który wyłapie błędy, jedno błędne „wygląda dobrze” może zrujnować twoją aplikację.

Zbudowałem system zwany harness. Sprawia on, że fałszywe uznanie zadania za ukończone staje się kosztowne. Wykorzystuje wyspecjalizowanych agentów i bramki weryfikacyjne, aby upewnić się, że AI mówi prawdę.

Oto jak to działa:

• Wyspecjalizowani Agenci: Zamiast jednego asystenta używam czterdziestu wyspecjalizowanych agentów. Jeden recenzuje kod Flutter. Jeden sprawdza bezpieczeństwo. Jeden wykonuje testy. Jeden przeprowadza audyt rzeczywistości, porównując twierdzenia z faktycznymi zmianami. • Izolowana praca: Agenci pracują w oddzielnych, tymczasowych środowiskach. Nie mogą nadpisywać swoich zmian nawzajem. • Redundancja: Używam wielu recenzentów dla jednej zmiany. Jeden recenzent może przeoczyć błąd. Trzech recenzentów o różnych celach plus sceptyk go znajdą. • Stałe potoki (pipelines): Każde zadanie podąża ściśle określoną ścieżką:

  • Zaplanuj zadania.
  • Wdróż zmianę.
  • Uruchom kod naprawdę. Nie akceptuję stwierdzeń typu „myślę, że działa”. Akceptuję tylko rzeczywisty wynik.
  • Audyt rzeczywistości. Osobny agent sprawdza, czy kod zgadza się z deklaracją.
  • Recenzja. Ekspert językowy sprawdza pracę.
  • Bramka weryfikacyjna. Końcowe sprawdzenie pod kątem rzeczywistych zmian i wycieków bezpieczeństwa. Zwraca PASS lub REJECT.

Ten system powstrzymuje kłamstwa, które wcześniej sam sobie wmawiałem.

„Powinno działać” zawodzi na etapie wykonania. „Gotowe” zawodzi podczas audytu rzeczywistości, jeśli kod jest tylko pustą skorupą. „Wszystko na zielono” zawodzi, jeśli ukryte jest ostrzeżenie.

Używam również trójwarstwowego systemu pamięci. Wykorzystuje on krótki indeks, notatki długoterminowe oraz wyszukiwanie pełnotekstowe. Zapobiega to zgadywaniu przez AI, jak skonfigurowałem rzeczy w przeszłości.

Najważniejsza zasada brzmi: automatyzuję pracę, ale nigdy nie automatyzuję osądu.

• Publikowanie jest manualne. Naciskam przycisk. • Wprowadzenie na produkcję wymaga mnie. Zatwierdzam każdą płatność lub ustawienie wydania. • Nic nie łączy się (merge) w przypadku błędu. Nieudany build blokuje wszystko.

Dźwignia, jaką daje AI, wynika z automatyzacji zadań. Bezpieczeństwo wynika z odmowy automatyzacji decyzji.

Kiedy pracujesz sam, twoim najcenniejszym zasobem jest zaufanie. Musisz mieć pewność, że to, co wysłałeś, jest dokładnie tym, co zamierzałeś wysłać.

Zacznij od małych kroków. Znajdź błąd, który popełniasz najczęściej. Zbuduj jedną kontrolę, która sprawi, że ten błąd stanie się niemożliwy.

Źródło: https://dev.to/pi-maker/how-i-run-a-handful-of-apps-solo-the-agent-harness-explained-512i

Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi