La demo del tuo agente funziona. È questa la trappola.
Costruisco agenti AI per le aziende. Vedo spesso lo stesso schema. Il modello funziona in una demo. Lanci il prodotto. Poi fallisce una volta su tre in produzione. Nessuno sa perché.
Il divario tra una demo e la produzione è una questione di matematica. Una volta compresa la matematica, costruirai in modo diverso.
Se ogni passaggio del tuo agente è affidabile al 95%, sembra un buon risultato. Ma gli agenti utilizzano catene di passaggi. Se concateni dieci passaggi, il tuo tasso di successo scende al 60%. Se ne usi venti, il tasso di successo scende al 36%.
Nel lavoro reale, i passaggi hanno spesso tassi di errore tra il 10% e il 20%. Se un agente ha otto passaggi con un'affidabilità dell'85%, fallisce il 75% delle volte.
Il problema non è il modello. Il problema è la probabilità composta.
Una demo mostra un singolo percorso ideale. Utilizza input puliti e catene brevi. La produzione utilizza dati disordinati provenienti da centinaia di utenti. Utilizza catene lunghe che includono passaggi nascosti.
Il fallimento negli agenti non si presenta come un crash. Sembra un errore silenzioso.
Il passaggio 3 legge male un campo. L'output sembra ancora un JSON valido. Il passaggio 4 usa quei dati errati per ragionare. I passaggi dal 5 all'8 si basano su quell'errore. La risposta finale è sbagliata ma sembra plausibile. Non c'è alcun log di errore che ti mostri dove si è verificato l'errore.
Smetti di dire che il modello ha allucinato. Il modello ha solo trasmesso i dati errati che ha ricevuto. Il tuo sistema non aveva un checkpoint per intercettare l'errore al passaggio 3.
Smetti di trattare l'agente come un prompt. Inizia a trattarlo come un sistema.
Segui queste regole per costruire agenti affidabili:
Salva lo stato all'esterno dell'agente. Mantieni lo stato in un database, non nella conversazione. Se un processo fallisce al passaggio 6, puoi riprendere dal passaggio 6. Non devi riavviare l'intera catena.
Valida ai confini. Controlla ogni input e output rispetto a uno schema. Intercetta l'errore al passaggio in cui si verifica. Questo trasforma un mistero in un errore recuperabile.
Rendi gli effetti collaterali idempotenti. Devi riprovare i passaggi quando falliscono. Se un passaggio invia un'email o addebita una carta, usa una chiave di idempotenza. Questo evita azioni duplicate durante un tentativo di riprova.
Usa gli evals nella tua CI. Il comportamento dell'agente cambia a ogni modifica. Un cambiamento nel prompt potrebbe risolvere un caso ma romperne altri cinque. Usa un set di test per intercettare automaticamente queste regressioni.
Passare da una demo a un prodotto reale è una questione di ingegneria. Riguarda la gestione degli errori, la gestione dello stato e l'osservabilità. Non riguarda prompt migliori.
Se il tuo agente dà problemi in produzione, non cercare un modello più grande. Cerca il passaggio in cui la catena devia. Chiediti perché il tuo sistema non ha intercettato l'errore in quel punto.
Fonte: https://dev.to/sagar_jain4010/your-agent-demo-works-thats-the-trap-4joc
Community di apprendimento opzionale: https://t.me/GyaanSetuAi
