Come faccio A/B testing ai prompt degli LLM senza ingannarmi

Translated for your language. Leggi l'originale.

AI-assisted draft.

GyaanSetu Editorial2 settimane fa2min di lettura

Come faccio A/B testing ai prompt degli LLM senza ingannarmi

How I A/B Test LLM Prompts Without Fooling Myself

Una volta ho costruito un assistente per il supporto e pensavo di aver trovato la soluzione vincente. Ho eseguito trenta casi di test, il nuovo prompt ha ottenuto un punteggio più alto e l'ho rilasciato.

Sei ore dopo, la coda del supporto si è riempita di reclami. Ho dovuto annullare la modifica quella stessa notte.

Il punteggio più alto era falso. Trenta esempi non sono sufficienti per distinguere un miglioramento reale dalla fortuna. Quel numero era solo rumore.

Ecco come testare i prompt senza commettere lo stesso errore.

I test piccoli colgono solo i cambiamenti grandi. Se vuoi trovare un piccolo miglioramento, hai bisogno di molti più esempi. Per trovare un cambiamento minimo, potresti averne bisogno di oltre mille.
Usa le stesse domande per entrambe le versioni. Non dare alla Versione A un set di domande e alla Versione B un altro. Alcune domande sono più difficili di altre. Se la Versione B riceve le domande facili, sembrerà migliore anche se è peggiore. Sottoponi entrambe le versioni esattamente allo stesso set di domande.
Guarda l'intervallo, non solo la media. Una media non ti dice nulla sull'entità del successo. Indica un intervallo che comprenda il minimo e il massimo miglioramento probabile. Se quell'intervallo include lo zero, non rilasciarlo.
Scegli il metodo di valutazione corretto. • Usa una checklist per la qualità assoluta. • Usa un confronto affiancato per la qualità sfumata come il tono o l'utilità.
Usa un bandit per versioni multiple. Se hai tre o più versioni e vuoi limitare la frustrazione degli utenti, usa un bandit. Questo invia più traffico alla versione vincente man mano che apprende. Ciò evita che gli utenti ricevano risposte errate per settimane.

Evita queste trappole:

Confrontare le medie senza un intervallo.
Usare set di domande diversi per versioni diverse.
Cambiare il sistema di valutazione a metà di un test.
Interrompere un test nel momento in cui i numeri sembrano buoni.
Monitorare troppe metriche contemporaneamente. Questo aumenta la probabilità di vedere un falso successo.
Fidarsi di un sistema di valutazione prima di averlo verificato rispetto al giudizio umano.

La parte difficile non è eseguire il test. La parte difficile è sapere quando il risultato è reale.

Source: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f

Optional learning community: https://t.me/GyaanSetuAi

Come faccio A/B testing ai prompt degli LLM senza ingannarmi

Continua a leggere

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁𝗶𝗻𝗴: 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿'𝘀 𝗚𝘂𝗶𝗱𝗲

Sviluppo di agenti guidato dalle evaluation: come ho smesso di ottimizzare i prompt basandomi sulle sensazioni

Cosa un LLM veloce mi ha insegnato riguardo alle assunzioni

Your Evals Are Flaky Too: Stop Trusting A Pass Rate You Can't Reproduce

Le revisioni del codice di GLM 5.2 dipendono dai tuoi prompt