Comment je teste les prompts de LLM par A/B testing sans me leurrer
J'ai déjà construit un assistant de support et je pensais avoir trouvé la perle rare. J'ai lancé trente cas de test, le nouveau prompt a obtenu un meilleur score, et je l'ai déployé.
Six heures plus tard, la file d'attente du support était saturée de plaintes. J'ai dû annuler la modification cette nuit-là.
Le score plus élevé était faux. Trente exemples ne suffisent pas pour distinguer une véritable amélioration de la chance. Ce chiffre n'était que du bruit.
Voici comment tester des prompts sans commettre cette erreur.
Les tests de petite envergure ne détectent que les changements importants. Si vous voulez trouver une petite amélioration, vous avez besoin de beaucoup plus d'exemples. Pour détecter un changement infime, il peut vous falloir plus de mille exemples.
Utilisez les mêmes questions pour les deux versions. Ne donnez pas un lot de questions à la version A et un autre à la version B. Certaines questions sont plus difficiles que d'autres. Si la version B reçoit les questions faciles, elle semblera meilleure même si elle est moins performante. Soumettez les deux versions exactement au même ensemble de questions.
Regardez l'étendue, pas seulement la moyenne. Une moyenne ne vous dit rien sur l'ampleur de la réussite. Indiquez une plage allant de la plus petite à la plus grande amélioration probable. Si cette plage inclut zéro, ne déployez pas la version.
Choisissez la bonne méthode de notation. • Utilisez une checklist pour la qualité absolue. • Utilisez une comparaison côte à côte pour la qualité subjective comme le ton ou l'utilité.
Utilisez un bandit pour plusieurs versions. Si vous avez trois versions ou plus et que vous voulez limiter la frustration des utilisateurs, utilisez un bandit. Il envoie plus de trafic vers la version gagnante au fur et à mesure qu'il apprend. Cela évite que les utilisateurs ne reçoivent de mauvaises réponses pendant des semaines.
Évitez ces pièges :
- Comparer des moyennes sans regarder l'étendue.
- Utiliser des lots de questions différents pour différentes versions.
- Changer votre système de notation en plein milieu d'un test.
- Arrêter un test dès que les chiffres semblent bons.
- Surveiller trop de métriques à la fois. Cela augmente vos chances de voir une victoire fictive.
- Faire confiance à un système de notation avant de l'avoir vérifié par rapport au jugement humain.
Le plus difficile n'est pas de lancer le test. Le plus difficile est de savoir quand le résultat est réel.
Source : https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f
Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi
