Valutare la qualità dell'output degli LLM in produzione
Nel marzo 2023, GPT-4 identificava i numeri primi con un'accuratezza del 97,6%. Entro giugno 2023, lo stesso modello era sceso al 2,4% di accuratezza. Nessuno ha cambiato il codice. Nessuno ha cambiato il prompt. Il modello è semplicemente cambiato.
Questo è il problema principale degli LLM in produzione. Non hai il controllo sul modello. È una dipendenza soggetta a drift. Se non lo misuri, saranno i tuoi utenti a dirti che è rotto.
Non puoi affidarti alle sensazioni o a un "mi sembra buono". Hai bisogno di segnali ripetibili.
Il software tradizionale è deterministico. Lo stesso input produce lo stesso output. Gli LLM rompono questa regola. Sono non deterministici e il concetto di "corretto" è spesso sfumato.
Per gestire questo aspetto, hai bisogno di tre livelli di valutazione:
- Offline evals: esegui un set di test fisso a ogni modifica per individuare regressioni.
- Controlli senza riferimento (reference-free): usa segnali come il rilevamento delle allucinazioni quando non hai una risposta "giusta".
- Monitoraggio in produzione: osserva il traffico reale per rilevare drift e cali di qualità.
La base è un Golden Dataset. Non usare campioni casuali. Usa un set curato di casi difficili. Usa input vuoti, casi limite (edge cases) strani e prompt avversari. 80 esempi mirati battono 8.000 esempi casuali.
Quando usi un LLM come giudice, presta attenzione a questi bias:
- Position bias: i giudici spesso favoriscono la prima risposta che vedono. Risolvi il problema eseguendo i confronti in entrambi gli ordini.
- Verbosity bias: i giudici premiano risposte più lunghe anche se sono meno chiare.
- Self-enhancement bias: i modelli preferiscono testi della propria famiglia. Usa famiglie di modelli diverse per giudicare gli output.
Per il monitoraggio in tempo reale, usa la RAG Triad per controllare:
- Faithfulness: la risposta rimane fedele al contesto?
- Answer relevance: risponde alla domanda?
- Context relevance: il sistema ha recuperato i documenti corretti?
Smetti di trattare la qualità del modello come una proprietà fissa. Trattala come la latenza o i tassi di errore. Cambia nel tempo. Il tuo compito è accorgerti quando smette di essere buona.
Inizia in piccolo. Scrivi 20 esempi "golden". Usali per bloccare i tuoi deploy. Aggiungi in seguito euristiche di produzione economiche.
I team che dormono sonni tranquilli non sono quelli con i modelli più intelligenti. Sono quelli che scoprono entro un'ora se il loro modello sta diventando meno intelligente.
Fonte: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an
Community di apprendimento opzionale: https://t.me/GyaanSetuAi
