Mój Cron zwrócił OK, ale nic nie zrobił
W zeszły wtorek mój agent OpenClaw przeprowadził audyt bezpieczeństwa.
Dashboard wyświetlił zielone światło. Status brzmiał: ok. Nie było żadnych błędów ani alertów.
Ale agent nie zrobił nic.
Agent uległ awarii podczas zadania. Wystąpił błąd przeładowania MiniMax. Zewnętrzny framework go nie wychwycił. Framework uznał zadanie za zakończone sukcesem, mimo że agent zawiódł.
Błąd ten odkryłem dopiero trzy dni później, gdy ręcznie sprawdziłem transkrypcję sesji.
Potrzebowałem sposobu na wykrywanie takich cichych awarii. Aby to rozwiązać, napisałem 30-linijkowy skrypt przeglądający.
The Problem Frameworki wykrywają przekroczenia czasu oczekiwania sieci (timeouts) oraz błędy uwierzytelniania. Nie wykrywają jednak tego, co dzieje się wewnątrz tury agenta. Gdy podagent ulega awarii, system często generuje konkretną wiadomość: "[assistant turn failed before producing content]".
Dla frameworka wygląda to jak zwykła wiadomość. Status pozostaje "ok". Jest to cicha awaria. To najtrudniejszy do wykrycia rodzaj błędu.
The Solution Dodałem skrypt, który sprawdza faktyczną treść transkrypcji, zamiast polegać wyłącznie na kodzie statusu.
Skrypt szuka tego konkretnego ciągu znaków oznaczającego awarię. Używa również wyrażenia regularnego, aby wyciągnąć z tekstu dokładną wiadomość o błędzie.
Dzięki temu skrypt może wyświetlić rzeczywistą przyczynę, taką jak:
- overloaded_error
- rate_limit_exceeded
- context_length_exceeded
Gdy zobaczyłem szczegóły błędu, znalazłem przyczynę źródłową. Awariom ulegał łańcuch fallbacku modelu. Usunąłem darmowy model fallbackowy, który powodował kaskadowe awarie. Dzięki jego usunięciu moje crony stały się szybsze i bardziej niezawodne.
The Result Skrypt uruchamia się teraz każdej nocy. Sprawdza transkrypcje z poprzedniego dnia. Jeśli znajdzie cichą awarię, wysyła alert na mój Telegram.
Nie czekam już dniami na wykrycie błędów. Widzę je każdego ranka.
The Lesson Zielony dashboard nie oznacza, że Twój agent zadziałał. Status frameworka i wyjście agenta to dwie różne rzeczy.
Jeśli uruchamiasz zautomatyzowanych agentów, nie polegaj wyłącznie na kodach statusu. Sprawdzaj transkrypcje. Zbuduj narzędzie, które będzie sprawdzać transkrypcje za Ciebie. Ciche awarie to te, które wyrządzają najwięcej szkód.
Optional learning community: https://t.me/GyaanSetuAi