Mijn Cron zei OK, maar deed niets

Afgelopen dinsdag voerde mijn OpenClaw-agent een beveiligingsaudit uit.

Het dashboard gaf een groen licht. Er stond status: ok. Er waren geen fouten en geen meldingen.

Maar de agent deed niets.

De agent crashte tijdens de taak. Er trad een MiniMax overload-fout op. Het externe framework ving dit niet op. Het framework zag een succesvolle afronding, ook al was de agent mislukt.

Ik ontdekte deze fout pas drie dagen later, toen ik het sessietranscript handmatig controleerde.

Ik had een manier nodig om deze stille crashes te vinden. Ik heb een review-script van 30 regels geschreven om dit op te lossen.

The Problem Frameworks detecteren netwerk-timeouts en authenticatiefouten. Ze detecteren niet wat er gebeurt binnen een agent turn. Wanneer een sub-agent crasht, geeft het systeem vaak een specifieke melding: "[assistant turn failed before producing content]".

Voor het framework ziet dit eruit als een normale melding. De status blijft "ok". Dit is een stille fout. Het is het moeilijkste type fout om te vinden.

The Solution Ik heb een script toegevoegd om de werkelijke inhoud van het transcript te controleren in plaats van alleen de statuscode.

Het script zoekt naar die specifieke foutmelding. Het gebruikt ook een regular expression om de exacte foutmelding uit de tekst te halen.

Hierdoor kan het script de werkelijke oorzaak tonen, zoals:

  • overloaded_error
  • rate_limit_exceeded
  • context_length_exceeded

Zodra ik de details van de fout zag, vond ik de hoofdoorzaak. De crashes werden veroorzaakt door een model fallback chain. Ik heb het gratis fallback-model verwijderd dat de cascade-fouten veroorzaakte. Door het te verwijderen, werden mijn crons sneller en betrouwbaarder.

The Result Het script draait nu elke nacht. Het controleert de transcripten van de vorige dag. Als het een stille crash vindt, stuurt het een melding naar mijn Telegram.

Ik hoef niet langer dagen te wachten om fouten te vinden. Ik zie ze elke ochtend.

The Lesson Een groen dashboard betekent niet dat je agent heeft gewerkt. De status van het framework en de output van de agent zijn twee verschillende zaken.

Als je geautomatiseerde agents gebruikt, vertrouw dan niet alleen op statuscodes. Controleer de transcripten. Bouw een tool die de transcripten voor je controleert. Stille fouten zijn de fouten die de meeste schade aanrichten.

Source: https://dev.to/mrclaw207/my-openclaw-cron-said-ok-but-did-nothing-i-fixed-it-with-a-30-line-review-script-33ll

Optional learning community: https://t.me/GyaanSetuAi