How I A/B Test LLM Prompts Without Fooling Myself

Translated for your language. Lire l'original.

AI-assisted draft.

GyaanSetu Editorialil y a 2 semaines2min de lecture

How I A/B Test LLM Prompts Without Fooling Myself

Comment je teste les prompts de LLM par A/B testing sans me leurrer

J'ai déjà construit un assistant de support et je pensais avoir trouvé la perle rare. J'ai lancé trente cas de test, le nouveau prompt a obtenu un meilleur score, et je l'ai déployé.

Six heures plus tard, la file d'attente du support était saturée de plaintes. J'ai dû annuler la modification cette nuit-là.

Le score plus élevé était faux. Trente exemples ne suffisent pas pour distinguer une véritable amélioration de la chance. Ce chiffre n'était que du bruit.

Voici comment tester des prompts sans commettre cette erreur.

Les tests de petite envergure ne détectent que les changements importants. Si vous voulez trouver une petite amélioration, vous avez besoin de beaucoup plus d'exemples. Pour détecter un changement infime, il peut vous falloir plus de mille exemples.
Utilisez les mêmes questions pour les deux versions. Ne donnez pas un lot de questions à la version A et un autre à la version B. Certaines questions sont plus difficiles que d'autres. Si la version B reçoit les questions faciles, elle semblera meilleure même si elle est moins performante. Soumettez les deux versions exactement au même ensemble de questions.
Regardez l'étendue, pas seulement la moyenne. Une moyenne ne vous dit rien sur l'ampleur de la réussite. Indiquez une plage allant de la plus petite à la plus grande amélioration probable. Si cette plage inclut zéro, ne déployez pas la version.
Choisissez la bonne méthode de notation. • Utilisez une checklist pour la qualité absolue. • Utilisez une comparaison côte à côte pour la qualité subjective comme le ton ou l'utilité.
Utilisez un bandit pour plusieurs versions. Si vous avez trois versions ou plus et que vous voulez limiter la frustration des utilisateurs, utilisez un bandit. Il envoie plus de trafic vers la version gagnante au fur et à mesure qu'il apprend. Cela évite que les utilisateurs ne reçoivent de mauvaises réponses pendant des semaines.

Évitez ces pièges :

Comparer des moyennes sans regarder l'étendue.
Utiliser des lots de questions différents pour différentes versions.
Changer votre système de notation en plein milieu d'un test.
Arrêter un test dès que les chiffres semblent bons.
Surveiller trop de métriques à la fois. Cela augmente vos chances de voir une victoire fictive.
Faire confiance à un système de notation avant de l'avoir vérifié par rapport au jugement humain.

Le plus difficile n'est pas de lancer le test. Le plus difficile est de savoir quand le résultat est réel.

Source : https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi

How I A/B Test LLM Prompts Without Fooling Myself

Continuer la lecture

𝗠𝗮𝘀𝘁𝗲𝗿𝗶𝗻𝗴 𝗟𝗟𝗠 𝗣𝗿𝗼𝗺𝗽𝘁𝗶𝗻𝗴: 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿'𝘀 𝗚𝘂𝗶𝗱𝗲

Développement d'agents piloté par les évaluations : comment j'ai arrêté d'ajuster les prompts au feeling

Ce qu'un LLM rapide m'a appris sur les hypothèses

Vos évaluations sont aussi instables : cessez de vous fier à un taux de réussite non reproductible

GLM 5.2 Code Reviews Depend On Your Prompts