AI Agents In Practice: Reading Failures from The Trace
Twój agent AI nie ulega awarii. Raportuje sukces. Jednak na Twoim koncie bankowym widać błąd.
Zwrot środków został wysłany dla zamówienia, które nigdy nie zostało anulowane. Klient ma zarówno produkt, jak i pieniądze. Agent uważał, że wykonał swoje zadanie.
Nie sięgaj po większy model. Nie dodawaj po prostu pętli ponowień (retry loop). Obie te metody to jedynie zgadywanie.
Zamiast tego, przeanalizuj ślad (trace). Agent już zapisał to, co zrobił.
Dobry ślad produkcyjny rejestruje pętlę krok po kroku. Musi on zawierać:
- Co zaobserwował agent
- Co zdecydował
- Które narzędzie wywołał
- Co zwróciło narzędzie
- Odczyt weryfikacyjny ze źródła prawdy (source of truth)
- Stan końcowy i koszt
Najważniejszą częścią jest luka między odpowiedzią narzędzia a odczytem weryfikacyjnym. Narzędzie może zwrócić „accepted”, ale to nie oznacza, że stan faktyczny uległ zmianie. Odczyt weryfikacyjny mówi Ci, czy zmiana faktycznie nastąpiła.
Błędy zazwyczaj dzielą się na dwie grupy:
- Execution Failures
- Błędy narzędzi: błędne argumenty lub przekroczenie czasu oczekiwania (timeouts).
- Błędy rozumowania: model wybrał niewłaściwe działanie.
- Błędy stanu kontrolnego: agent wierzy w kłamstwo. Myśli, że zamówienie zostało anulowane, bo tak twierdziło narzędzie, nawet jeśli baza danych mówi co innego.
- Structural Loop Failures
- Degradacja kontekstu: agent gubi wątek.
- Niekontrolowana pętla (loop runaway): agent powtarza kroki bez postępu.
- Ciche zawieszenia: agent zawiesza się bez zgłaszania błędu. Potrzebujesz mechanizmu typu watchdog, aby traktować ciszę jako błąd.
Gdy znajdziesz błąd, nie próbuj go po prostu powtórzyć. Ponowienie (retry) to strategia, a nie diagnoza.
- Jeśli jest to błąd przejściowy, np. timeout, spróbuj ponownie.
- Jeśli jest to błąd logiczny, ponawianie jedynie marnuje Twój budżet, uderzając w tę samą ścianę.
- Jeśli agent napotka blokadę, zatrzymaj się i poinformuj człowieka.
Najlepszym sposobem na naprawienie błędu jest przekształcenie go w test.
Wykorzystaj ślad do napisania gradera. Jeśli agent nie zweryfikował anulowania, napisz test, który nie przejdzie, jeśli nastąpi zwrot środków bez potwierdzonego statusu anulowania. Zamień błędy, za które już zapłaciłeś, w błędy, za które nigdy nie zapłacisz dwa razy.
Optional learning community: https://t.me/GyaanSetuAi
