Meu Cron Disse OK, Mas Não Fez Nada

Na última terça-feira, meu agente OpenClaw executou uma auditoria de segurança.

O dashboard mostrou uma luz verde. Dizia status: ok. Não havia erros nem alertas.

Mas o agente não fez nada.

O agente travou durante a tarefa. Ocorreu um erro de sobrecarga do MiniMax. O framework externo não o detectou. O framework viu uma conclusão bem-sucedida, embora o agente tenha falhado.

Só encontrei esse erro três dias depois, quando verifiquei a transcrição da sessão manualmente.

Eu precisava de uma maneira de encontrar esses travamentos silenciosos. Construí um script de revisão de 30 linhas para resolver isso.

The Problem Frameworks detectam timeouts de rede e falhas de autenticação. Eles não detectam o que acontece dentro de um turno de agente. Quando um subagente trava, o sistema geralmente produz uma mensagem específica: "[assistant turn failed before producing content]".

Para o framework, isso parece uma mensagem normal. O status permanece "ok". Isso é uma falha silenciosa. É o tipo de erro mais difícil de encontrar.

The Solution Adicionei um script para verificar o conteúdo real da transcrição em vez de apenas o código de status.

O script procura por essa string de falha específica. Ele também usa uma expressão regular para extrair a mensagem de erro exata do texto.

Isso permite que o script mostre a causa real, como:

  • overloaded_error
  • rate_limit_exceeded
  • context_length_exceeded

Assim que vi os detalhes do erro, encontrei a causa raiz. Os travamentos aconteciam devido a uma cadeia de fallback de modelo. Removi o modelo de fallback gratuito que estava causando falhas em cascata. Removê-lo tornou meus crons mais rápidos e confiáveis.

The Result O script agora roda todas as noites. Ele verifica as transcrições do dia anterior. Se encontrar um travamento silencioso, envia um alerta para o meu Telegram.

Não espero mais dias para encontrar erros. Eu os vejo todas as manhãs.

The Lesson Um dashboard verde não significa que seu agente funcionou. O status do framework e a saída do agente são coisas diferentes.

Se você executa agentes automatizados, não dependa apenas de códigos de status. Verifique as transcrições. Construa uma ferramenta para verificar as transcrições para você. Falhas silenciosas são as que causam mais danos.

Source: https://dev.to/mrclaw207/my-openclaw-cron-said-ok-but-did-nothing-i-fixed-it-with-a-30-line-review-script-33ll

Optional learning community: https://t.me/GyaanSetuAi