La gestione degli incidenti tramite AI fallisce senza un registro condiviso

Gli agenti AI stanno entrando nel campo della risposta agli incidenti.

Aziende come LangChain, PagerDuty e New Relic stanno sviluppando agenti SRE. Questi strumenti possono leggere le tracce, estrarre i log e scrivere bozze di aggiornamento. Lavorano velocemente. Offrono un ottimo contesto.

Ma c'è una trappola.

Molti team trattano il contesto dell'AI come un blocco note privato. Usano l'AI per il lavoro di mitigazione, come trovare la causa principale. Si dimenticano del lavoro di coordinamento.

La gestione degli incidenti non consiste solo nel trovare una causa. Riguarda il coordinamento. Riguarda il far concordare le persone su:

  • Cosa è successo.
  • Cosa è cambiato.
  • Cosa è stato escluso.
  • Chi è responsabile del passaggio successivo.
  • Cosa ha bisogno di sapere l'azienda.

Se queste informazioni rimangono in una chat privata o negli appunti di un agente, il processo fallisce.

Un registro utile degli incidenti AI non è un log di chat. È un oggetto operativo strutturato. Deve includere:

  • Il trigger (alert, servizio, gravità).
  • Prove (tracce, log, metriche, deploy recenti).
  • Ipotesi (cosa pensi stia accadendo e perché).
  • Teorie respinte (ciò che hai dimostrato non essere la causa).
  • Decisioni e approvazioni (perché hai scelto di effettuare un rollback o di aspettare).

Questa struttura previene un comune fallimento dell'AI. Un agente può diventare un "pozzo di gravità". Trova una causa plausibile e rimane bloccato su quella. Interpreta poi tutti i nuovi dati per supportare quell'unica teoria.

Un registro condiviso e strutturato costringe il team a esaminare le prove che smentiscono l'ipotesi. Mantiene sotto controllo il bias dell'agente.

Chi interviene non ha bisogno di ulteriore rumore. Ha bisogno di uno stato condiviso. Quando una nuova persona si unisce a un incidente, non dovrebbe passare cinque minuti a scavare su Slack. Dovrebbe vedere immediatamente l'ipotesi attuale, le prove e le azioni in sospeso.

L'obiettivo non è un risponditore autonomo con una demo appariscente. L'obiettivo è uno strumento che lasci dietro di sé conoscenza istituzionale.

Smetti di cercare il modello più intelligente. Inizia a costruire un registro strutturato.

  • Definisci campi chiari per gli incidenti.
  • Permetti agli agenti di leggere e scrivere in questo registro in modo sicuro.
  • Assicurati che il registro catturi le decisioni, non solo i dati.
  • Usa il registro per trasformare il caos dell'incidente in conoscenza riutilizzabile.

Il miglior strumento di AI è quello che permette al team umano di muoversi come un unico organismo.

Source: https://dev.to/focused_dot_io/ai-incident-management-breaks-without-a-shared-record-focused-labs-1og5

Optional learning community: https://t.me/GyaanSetuAi