Osservabilità nell'Agentic AI
I microservizi tradizionali hanno risolto il problema dell'osservabilità. Le tracce mostrano i percorsi. Le metriche mostrano la latenza. I log raccontano la storia.
L'Agentic AI rompe questo modello.
Una singola domanda dell'utente può attivare guardrail, letture di sessione, molteplici chiamate LLM, ricerche web e cicli di ragionamento. I fallimenti sono spesso sottili. Uno strumento potrebbe essere lento. Una finestra di contesto potrebbe diventare troppo grande. Un modello potrebbe degradare sotto carico senza restituire un errore.
Recentemente ho eseguito la demo OpenTelemetry NBA Agent per testare come osserviamo questi sistemi. Ecco cosa ho imparato sulla costruzione di agenti AI affidabili.
I tre pilastri dell'osservabilità degli agenti
• Le tracce sono più preziose dei test unitari. Lo stesso prompt può produrre risposte diverse tra un'esecuzione e l'altra. Devi vedere il percorso seguito dall'agente, non solo il testo finale.
• Correla l'intento con l'azione. Una risposta di una sola parola funziona per il meteo, ma fallisce per un consiglio finanziario. Devi collegare le decisioni dei guardrail e l'uso degli strumenti all'intento dell'utente.
• Stabilisci dei baseline fin da subito. Gli aggiornamenti dei modelli e i cambiamenti delle API alterano il comportamento. Hai bisogno di metriche prima di un deployment per sapere se le cose sono migliorate o peggiorate.
Cosa misurare
Non puoi limitarti a monitorare la chiamata al modello. Devi strumentare l'intero ecosistema.
Il livello del modello (Model Layer) Traccia i nomi delle operazioni, i dettagli del provider e l'utilizzo dei token. Monitora la durata e i motivi di conclusione (finish reasons).
Strumenti e server MCP Tratta gli strumenti come microservizi. Traccia latenza, tassi di successo e argomenti. Se un agente è lento, spesso è a causa di un'API esterna lenta, non dell'LLM.
Guardrail Misura quanto spesso i guardrail vengono attivati e per quale argomento. Questo aiuta a giustificare il costo dei livelli di sicurezza alla dirigenza.
Memoria e sessioni Fai attenzione all'espansione del contesto (context bloat). L'aumento del numero di token di input per turno può portare a picchi di costo massicci.
Metriche chiave per la tua dashboard
• Latenza: Time to First Token (TTFT) e latenza del turno end-to-end. • Costo: Token totali e spesa stimata per sessione. • Affidabilità: Tassi di errore per tipo di span (LLM vs Tool vs HTTP). • Comportamento: Profondità del ciclo dell'agente e frequenza delle chiamate agli strumenti.
L'Agentic AI è un sistema distribuito in cui il pianificatore è probabilistico. Se non riesci a vedere l'intero ciclo dell'agente, non puoi gestirlo in produzione.
Community di apprendimento opzionale: https://t.me/GyaanSetuAi
