Valutare la qualità dell'output degli LLM in produzione

Nel marzo 2023, GPT-4 identificava i numeri primi con un'accuratezza del 97,6%. Entro giugno 2023, lo stesso modello era sceso al 2,4% di accuratezza. Nessuno ha cambiato il codice. Nessuno ha cambiato il prompt. Il modello è semplicemente cambiato.

Questo è il problema principale degli LLM in produzione. Non hai il controllo sul modello. È una dipendenza soggetta a drift. Se non lo misuri, saranno i tuoi utenti a dirti che è rotto.

Non puoi affidarti alle sensazioni o a un "mi sembra buono". Hai bisogno di segnali ripetibili.

Il software tradizionale è deterministico. Lo stesso input produce lo stesso output. Gli LLM rompono questa regola. Sono non deterministici e il concetto di "corretto" è spesso sfumato.

Per gestire questo aspetto, hai bisogno di tre livelli di valutazione:

  • Offline evals: esegui un set di test fisso a ogni modifica per individuare regressioni.
  • Controlli senza riferimento (reference-free): usa segnali come il rilevamento delle allucinazioni quando non hai una risposta "giusta".
  • Monitoraggio in produzione: osserva il traffico reale per rilevare drift e cali di qualità.

La base è un Golden Dataset. Non usare campioni casuali. Usa un set curato di casi difficili. Usa input vuoti, casi limite (edge cases) strani e prompt avversari. 80 esempi mirati battono 8.000 esempi casuali.

Quando usi un LLM come giudice, presta attenzione a questi bias:

  • Position bias: i giudici spesso favoriscono la prima risposta che vedono. Risolvi il problema eseguendo i confronti in entrambi gli ordini.
  • Verbosity bias: i giudici premiano risposte più lunghe anche se sono meno chiare.
  • Self-enhancement bias: i modelli preferiscono testi della propria famiglia. Usa famiglie di modelli diverse per giudicare gli output.

Per il monitoraggio in tempo reale, usa la RAG Triad per controllare:

  • Faithfulness: la risposta rimane fedele al contesto?
  • Answer relevance: risponde alla domanda?
  • Context relevance: il sistema ha recuperato i documenti corretti?

Smetti di trattare la qualità del modello come una proprietà fissa. Trattala come la latenza o i tassi di errore. Cambia nel tempo. Il tuo compito è accorgerti quando smette di essere buona.

Inizia in piccolo. Scrivi 20 esempi "golden". Usali per bloccare i tuoi deploy. Aggiungi in seguito euristiche di produzione economiche.

I team che dormono sonni tranquilli non sono quelli con i modelli più intelligenti. Sono quelli che scoprono entro un'ora se il loro modello sta diventando meno intelligente.

Fonte: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an

Community di apprendimento opzionale: https://t.me/GyaanSetuAi