La demo del tuo agente funziona. È proprio questa la trappola.

Translated for your language. Leggi l'originale.

AI-assisted draft.

GyaanSetu Editorial2 settimane fa2min di lettura

La demo del tuo agente funziona. È proprio questa la trappola.

La demo del tuo agente funziona. È questa la trappola.

Costruisco agenti AI per le aziende. Vedo spesso lo stesso schema. Il modello funziona in una demo. Lanci il prodotto. Poi fallisce una volta su tre in produzione. Nessuno sa perché.

Il divario tra una demo e la produzione è una questione di matematica. Una volta compresa la matematica, costruirai in modo diverso.

Se ogni passaggio del tuo agente è affidabile al 95%, sembra un buon risultato. Ma gli agenti utilizzano catene di passaggi. Se concateni dieci passaggi, il tuo tasso di successo scende al 60%. Se ne usi venti, il tasso di successo scende al 36%.

Nel lavoro reale, i passaggi hanno spesso tassi di errore tra il 10% e il 20%. Se un agente ha otto passaggi con un'affidabilità dell'85%, fallisce il 75% delle volte.

Il problema non è il modello. Il problema è la probabilità composta.

Una demo mostra un singolo percorso ideale. Utilizza input puliti e catene brevi. La produzione utilizza dati disordinati provenienti da centinaia di utenti. Utilizza catene lunghe che includono passaggi nascosti.

Il fallimento negli agenti non si presenta come un crash. Sembra un errore silenzioso.

Il passaggio 3 legge male un campo. L'output sembra ancora un JSON valido. Il passaggio 4 usa quei dati errati per ragionare. I passaggi dal 5 all'8 si basano su quell'errore. La risposta finale è sbagliata ma sembra plausibile. Non c'è alcun log di errore che ti mostri dove si è verificato l'errore.

Smetti di dire che il modello ha allucinato. Il modello ha solo trasmesso i dati errati che ha ricevuto. Il tuo sistema non aveva un checkpoint per intercettare l'errore al passaggio 3.

Smetti di trattare l'agente come un prompt. Inizia a trattarlo come un sistema.

Segui queste regole per costruire agenti affidabili:

Salva lo stato all'esterno dell'agente. Mantieni lo stato in un database, non nella conversazione. Se un processo fallisce al passaggio 6, puoi riprendere dal passaggio 6. Non devi riavviare l'intera catena.
Valida ai confini. Controlla ogni input e output rispetto a uno schema. Intercetta l'errore al passaggio in cui si verifica. Questo trasforma un mistero in un errore recuperabile.
Rendi gli effetti collaterali idempotenti. Devi riprovare i passaggi quando falliscono. Se un passaggio invia un'email o addebita una carta, usa una chiave di idempotenza. Questo evita azioni duplicate durante un tentativo di riprova.
Usa gli evals nella tua CI. Il comportamento dell'agente cambia a ogni modifica. Un cambiamento nel prompt potrebbe risolvere un caso ma romperne altri cinque. Usa un set di test per intercettare automaticamente queste regressioni.

Passare da una demo a un prodotto reale è una questione di ingegneria. Riguarda la gestione degli errori, la gestione dello stato e l'osservabilità. Non riguarda prompt migliori.

Se il tuo agente dà problemi in produzione, non cercare un modello più grande. Cerca il passaggio in cui la catena devia. Chiediti perché il tuo sistema non ha intercettato l'errore in quel punto.

Fonte: https://dev.to/sagar_jain4010/your-agent-demo-works-thats-the-trap-4joc

Community di apprendimento opzionale: https://t.me/GyaanSetuAi

La demo del tuo agente funziona. È proprio questa la trappola.

Continua a leggere

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗣𝗮𝘀𝘀𝗲𝗱 𝗔𝗹𝗹 𝗧𝗲𝘀𝘁𝘀 — 𝗧𝗵𝗲𝗻 𝗙𝗮𝗶𝗹𝗲𝗱 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻

𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗧𝗵𝗮𝘁 𝗕𝗿𝗲𝗮𝗸 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗧𝗵𝗲 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 𝗔𝗴𝗲𝗻𝘁 𝗟𝗼𝗼𝗽

La demo del tuo agente funziona. Il tuo agente no.

Lo stack esatto che uso per costruire agenti AI in produzione