AI-incidentmanagement faalt zonder een gedeeld verslag

AI-agents betreden de wereld van incident response.

Bedrijven als LangChain, PagerDuty en New Relic bouwen SRE-agents. Deze tools kunnen traces lezen, logs ophalen en updates opstellen. Ze werken snel. Ze bieden uitstekende context.

Maar er is een valkuil.

Veel teams behandelen AI-context als een privé kladblok. Ze gebruiken AI voor mitigatiewerkzaamheden, zoals het vinden van een oorzaak. Ze vergeten het coördinatiewerk.

Incidentmanagement gaat niet alleen over het vinden van een oorzaak. Het gaat over coördinatie. Het gaat erom dat mensen het eens worden over:

  • Wat er is gebeurd.
  • Wat er is veranderd.
  • Wat je hebt uitgesloten.
  • Wie verantwoordelijk is voor de volgende stap.
  • Wat de business moet horen.

Als deze informatie in een privéchat of in de aantekeningen van een agent blijft staan, faalt het proces.

Een nuttig AI-incidentverslag is geen chatlog. Het is een gestructureerd operationeel object. Het moet het volgende bevatten:

  • De trigger (alert, service, ernst).
  • Bewijs (traces, logs, metrics, recente deploys).
  • Hypotheses (wat je denkt dat er gebeurt en waarom).
  • Verworpen theorieën (wat je hebt bewezen geen oorzaak is).
  • Beslissingen en goedkeuringen (waarom je hebt gekozen voor een rollback of om te wachten).

Deze structuur voorkomt een veelvoorkomende AI-fout. Een agent kan een 'gravity well' worden. Hij vindt een plausibele oorzaak en blijft daarop hangen. Vervolgens interpreteert hij alle nieuwe gegevens om die ene theorie te ondersteunen.

Een gedeeld, gestructureerd verslag dwingt het team om naar tegenbewijs te kijken. Het houdt de bias van de agent in toom.

Responders hebben geen behoefte aan meer ruis. Ze hebben behoefte aan een gedeelde status. Wanneer iemand nieuw bij een incident komt, zou diegene geen vijf minuten door Slack moeten graven. Ze zouden direct de huidige hypothese, het bewijs en de openstaande acties moeten kunnen zien.

Het doel is niet een autonome responder met een flitsende demo. Het doel is een tool die institutionele kennis achterlaat.

Stop met het zoeken naar het slimste model. Begin met het bouwen van een gestructureerd verslag.

  • Definieer duidelijke velden voor incidenten.
  • Laat agents veilig lezen en schrijven in dit verslag.
  • Zorg ervoor dat het verslag beslissingen vastlegt, niet alleen data.
  • Gebruik het verslag om incidentchaos om te zetten in herbruikbare kennis.

De beste AI-tool is degene die het menselijke team als één geheel laat bewegen.

Bron: https://dev.to/focused_dot_io/ai-incident-management-breaks-without-a-shared-record-focused-labs-1og5

Optionele leercommunity: https://t.me/GyaanSetuAi