Мій Cron сказав OK, але нічого не зробив

Минулого вівторка мій агент OpenClaw провів аудит безпеки.

Панель керування світилася зеленим. Статус був: ok. Помилок та сповіщень не було.

Але агент нічого не зробив.

Агент аварійно завершив роботу під час виконання завдання. Виникла помилка перевантаження MiniMax. Зовнішній фреймворк не зафіксував цього. Фреймворк розцінив виконання як успішне, хоча агент зазнав невдачі.

Я виявив цю помилку лише три дні потому, коли вручну перевірив транскрипт сесії.

Мені був потрібен спосіб знаходити такі «тихі» збої. Щоб вирішити цю проблему, я написав скрипт для перевірки на 30 рядків.

Проблема

Фреймворки виявляють тайм-аути мережі та помилки автентифікації. Але вони не бачать того, що відбувається всередині кроку агента. Коли субагент аварійно завершує роботу, система часто видає специфічне повідомлення: "[assistant turn failed before producing content]".

Для фреймворка це виглядає як звичайне повідомлення. Статус залишається "ok". Це «тиха» помилка. Це найважчий тип помилок для виявлення.

Рішення

Я додав скрипт, який перевіряє фактичний вміст транскрипту, а не лише код статусу.

Скрипт шукає саме цей рядок помилки. Він також використовує регулярний вираз, щоб витягнути точне повідомлення про помилку з тексту.

Це дозволяє скрипту показати справжню причину, наприклад:

  • overloaded_error
  • rate_limit_exceeded
  • context_length_exceeded

Коли я побачив деталі помилки, я знайшов першопричину. Збої відбувалися через ланцюжок відкату моделі (model fallback chain). Я видалив безкоштовну модель відкату, яка спричиняла каскадні збої. Після її видалення мої cron-завдання стали швидшими та надійнішими.

Результат

Тепер скрипт запускається щоночі. Він перевіряє транскрипти за попередній день. Якщо він знаходить «тихий» збій, він надсилає сповіщення в мій Telegram.

Я більше не чекаю дні, щоб знайти помилки. Я бачу їх щоранку.

Урок

Зелена панель керування не означає, що ваш агент спрацював. Статус фреймворка та результат роботи агента — це різні речі.

Якщо ви запускаєте автоматизованих агентів, не покладайтеся лише на коди статусів. Перевіряйте транскрипти. Створіть інструмент, який перевірятиме транскрипти замість вас. Саме «тихі» помилки завдають найбільшої шкоди.

Джерело: https://dev.to/mrclaw207/my-openclaw-cron-said-ok-but-did-nothing-i-fixed-it-with-a-30-line-review-script-33ll

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi