Mi Cron dijo OK pero no hizo nada
El martes pasado, mi agente de OpenClaw realizó una auditoría de seguridad.
El panel mostró una luz verde. Decía status: ok. No hubo errores ni alertas.
Pero el agente no hizo nada.
El agente falló durante la tarea. Ocurrió un error de sobrecarga de MiniMax. El framework externo no lo detectó. El framework vio una finalización exitosa a pesar de que el agente falló.
Solo encontré este error tres días después, cuando revisé el transcript de la sesión manualmente.
Necesitaba una forma de encontrar estos fallos silenciosos. Creé un script de revisión de 30 líneas para solucionarlo.
El problema
Los frameworks detectan tiempos de espera de red (timeouts) y fallos de autenticación. No detectan lo que sucede dentro de un turno del agente. Cuando un subagente falla, el sistema suele producir un mensaje específico: "[assistant turn failed before producing content]".
Para el framework, esto parece un mensaje normal. El estado sigue siendo "ok". Este es un fallo silencioso. Es el tipo de error más difícil de encontrar.
La solución
Añadí un script para revisar el contenido real del transcript en lugar de solo el código de estado.
El script busca esa cadena de error específica. También utiliza una expresión regular para extraer el mensaje de error exacto del texto.
Esto permite que el script muestre la causa real, como:
- overloaded_error
- rate_limit_exceeded
- context_length_exceeded
Una vez que vi los detalles del error, encontré la causa raíz. Los fallos ocurrían debido a una cadena de fallback del modelo. Eliminé el modelo de fallback gratuito que estaba causando fallos en cascada. Al eliminarlo, mis crons se volvieron más rápidos y confiables.
El resultado
El script ahora se ejecuta todas las noches. Revisa los transcripts del día anterior. Si encuentra un fallo silencioso, envía una alerta a mi Telegram.
Ya no espero días para encontrar errores. Los veo cada mañana.
La lección
Un panel en verde no significa que tu agente haya funcionado. El estado del framework y la salida del agente son cosas distintas.
Si ejecutas agentes automatizados, no confíes solo en los códigos de estado. Revisa los transcripts. Crea una herramienta que revise los transcripts por ti. Los fallos silenciosos son los que causan más daño.
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi