How I A/B Test LLM Prompts Without Fooling Myself
Una volta ho costruito un assistente per il supporto e pensavo di aver trovato la soluzione vincente. Ho eseguito trenta casi di test, il nuovo prompt ha ottenuto un punteggio più alto e l'ho rilasciato.
Sei ore dopo, la coda del supporto si è riempita di reclami. Ho dovuto annullare la modifica quella stessa notte.
Il punteggio più alto era falso. Trenta esempi non sono sufficienti per distinguere un miglioramento reale dalla fortuna. Quel numero era solo rumore.
Ecco come testare i prompt senza commettere lo stesso errore.
I test piccoli colgono solo i cambiamenti grandi. Se vuoi trovare un piccolo miglioramento, hai bisogno di molti più esempi. Per trovare un cambiamento minimo, potresti averne bisogno di oltre mille.
Usa le stesse domande per entrambe le versioni. Non dare alla Versione A un set di domande e alla Versione B un altro. Alcune domande sono più difficili di altre. Se la Versione B riceve le domande facili, sembrerà migliore anche se è peggiore. Sottoponi entrambe le versioni esattamente allo stesso set di domande.
Guarda l'intervallo, non solo la media. Una media non ti dice nulla sull'entità del successo. Indica un intervallo che comprenda il minimo e il massimo miglioramento probabile. Se quell'intervallo include lo zero, non rilasciarlo.
Scegli il metodo di valutazione corretto. • Usa una checklist per la qualità assoluta. • Usa un confronto affiancato per la qualità sfumata come il tono o l'utilità.
Usa un bandit per versioni multiple. Se hai tre o più versioni e vuoi limitare la frustrazione degli utenti, usa un bandit. Questo invia più traffico alla versione vincente man mano che apprende. Ciò evita che gli utenti ricevano risposte errate per settimane.
Evita queste trappole:
- Confrontare le medie senza un intervallo.
- Usare set di domande diversi per versioni diverse.
- Cambiare il sistema di valutazione a metà di un test.
- Interrompere un test nel momento in cui i numeri sembrano buoni.
- Monitorare troppe metriche contemporaneamente. Questo aumenta la probabilità di vedere un falso successo.
- Fidarsi di un sistema di valutazione prima di averlo verificato rispetto al giudizio umano.
La parte difficile non è eseguire il test. La parte difficile è sapere quando il risultato è reale.
Source: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f
Optional learning community: https://t.me/GyaanSetuAi
