Co noc uruchamiam pętlę samodoskonalenia u mojego agenta
Mój agent AI kiedyś popełniał te same błędy. Wykonywał zadanie, po cichu kończył je niepowodzeniem, a następnie raportował, że wszystko zadziałało idealnie. Nie był zepsuty. Po prostu nie miał sposobu, aby uczyć się na własnych błędach.
Zbudowałem pętlę samodoskonalenia, aby to naprawić.
Co noc o 2:00 rano uruchamia się odizolowana sesja. Odczytuje logi z ostatnich 24 godzin. Znajduje wzorce w tym, co poszło nie tak. Następnie aktualizuje pliki pamięci agenta. Nie bierze w tym udziału żaden człowiek.
Oto jak to działa:
- Oddziel wykonawcę od krytyka. Główny agent wykonuje zadania. Osobna sesja recenzuje pracę. Jedna sesja nie może być jednocześnie sędzią i katem.
- Używaj prostych plików. Do pamięci i poprawek używam zwykłych plików tekstowych. Dzięki temu system pozostaje lekki.
- Wymuszaj konkretność. Nie proszę agenta o poprawę. Proszę go o znalezienie wzorców, przedstawienie dowodów i zasugerowanie jednej konkretnej poprawki.
Używam trzech konkretnych plików do zarządzania tym procesem:
- Daily logs: Surowy zapis wszystkiego, co się wydarzyło.
- Accumulated lessons: Reguły o wysokiej istotności, które agent czyta na początku każdej sesji.
- Corrections: Miejsce na niedawne poprawki. Jeśli błąd powtórzy się trzy razy w ciągu dwóch tygodni, trafia do pliku z trwałymi lekcjami.
Wyniki nie pojawiły się natychmiast. Przez pierwsze trzy tygodnie obserwacje były oczywiste. W czwartym tygodniu agent znalazł głębokie problemy. Wykrył błędy w czasie i ukryte wzorce w komunikatach błędów, które ja przeoczyłem.
Największą korzyścią jest stabilność. Jeśli problem powraca po wprowadzeniu poprawki, wiem, że moja poprawka była błędna. System śledzi, czy dane rozwiązanie faktycznie działa.
System ma swoje ograniczenia. Może widzieć awarie w logach, ale nie widzi błędów w ocenie, chyba że je zaznaczę. Nadal muszę mu mówić, kiedy robi coś niewłaściwego z właściwych powodów.
Ta konfiguracja zajmuje 50 linii kodu i działa w mniej niż dwie minuty. Dzięki niej mój agent staje się odrobinę lepszy każdego dnia.
Opcjonalna społeczność ucząca się: https://t.me/GyaanSetuAi