How I A/B Test LLM Prompts Without Fooling Myself

Translated for your language. Read the original.

AI-assisted draft.

How I A/B Test LLM Prompts Without Fooling Myself

میں خود کو دھوکہ دیے بغیر LLM پرامپٹس کا A/B ٹیسٹ کیسے کرتا ہوں

میں نے ایک بار ایک سپورٹ اسسٹنٹ بنایا اور مجھے لگا کہ میں نے ایک بہترین چیز تیار کر لی ہے۔ میں نے تیسرے ٹیسٹ کیسز چلائے، نئے پرامپٹ کا اسکور زیادہ آیا، اور میں نے اسے لانچ کر دیا۔

چھ گھنٹے بعد، سپورٹ کی لائن شکایات سے بھر گئی۔ مجھے اسی رات وہ تبدیلی واپس لینی پڑی۔

وہ زیادہ اسکور فرضی تھا۔ حقیقی بہتری اور محض قسمت کے فرق کو سمجھنے کے لیے تیسری مثالیں کافی نہیں ہیں۔ وہ نمبر محض ایک شور (noise) تھا۔

یہاں بتایا گیا ہے کہ آپ وہ غلطی کیے بغیر پرامپٹس کا ٹیسٹ کیسے کر سکتے ہیں۔

چھوٹے ٹیسٹ صرف بڑی تبدیلیوں کو پکڑ سکتے ہیں۔ اگر آپ معمولی بہتری تلاش کرنا چاہتے ہیں، تو آپ کو بہت زیادہ مثالوں کی ضرورت ہوگی۔ ایک بہت چھوٹی تبدیلی تلاش کرنے کے لیے، آپ کو ایک ہزار سے زیادہ مثالوں کی ضرورت پڑ سکتی ہے۔
دونوں ورژنز کے لیے ایک ہی سوالات استعمال کریں۔ ورژن A کو سوالات کا ایک سیٹ اور ورژن B کو دوسرا سیٹ نہ دیں۔ کچھ سوالات دوسروں کے مقابلے میں زیادہ مشکل ہوتے ہیں۔ اگر ورژن B کو آسان سوالات مل جائیں، تو وہ بہتر نظر آئے گا چاہے وہ حقیقت میں بدتر ہی کیوں نہ ہو۔ دونوں ورژنز کو بالکل ایک ہی سوالات کے سیٹ سے گزاریں۔
صرف اوسط (average) پر نہیں، بلکہ رینج (range) پر نظر رکھیں۔ اوسط آپ کو یہ نہیں بتاتا کہ کامیابی کتنی بڑی ہے۔ ممکنہ طور پر ہونے والی کم سے کم اور زیادہ سے زیادہ بہتری کی رینج بتائیں۔ اگر اس رینج میں صفر شامل ہے، تو اسے لانچ نہ کریں۔
درست اسکورنگ کا طریقہ منتخب کریں۔ • مطلق معیار (absolute quality) کے لیے چیک لسٹ استعمال کریں۔ • لہجے یا مددگاری جیسے غیر واضح معیار (fuzzy quality) کے لیے آمنے سامنے (side-by-side) موازنہ استعمال کریں۔
متعدد ورژنز کے لیے 'بینڈٹ' (bandit) کا استعمال کریں۔ اگر آپ کے پاس تین یا اس سے زیادہ ورژنز ہیں اور آپ صارفین کی پریشانی کو کم کرنا چاہتے ہیں، تو بینڈٹ استعمال کریں۔ یہ سیکھنے کے عمل کے ساتھ ساتھ جیتنے والے ورژن کی طرف زیادہ ٹریفک بھیجتا ہے۔ اس سے صارفین کو ہفتوں تک غلط جوابات دیکھنے سے بچایا جا سکتا ہے۔

ان جالوں سے بچیں:

رینج کے بغیر اوسط کا موازنہ کرنا۔
مختلف ورژنز کے لیے سوالات کے مختلف سیٹ استعمال کرنا۔
ٹیسٹ کے دوران اپنے اسکورر کو تبدیل کرنا۔
جیسے ہی نمبر اچھے نظر آئیں، ٹیسٹ روک دینا۔
ایک ساتھ بہت زیادہ میٹرکس (metrics) دیکھنا۔ اس سے فرضی کامیابی دیکھنے کا امکان بڑھ جاتا ہے۔
انسانی فیصلے کے خلاف تصدیق کیے بغیر اسکورر پر بھروسہ کرنا۔

مشکل حصہ ٹیسٹ چلانا نہیں ہے۔ مشکل حصہ یہ جاننا ہے کہ نتیجہ کب حقیقی ہے۔

Source: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f

Optional learning community: https://t.me/GyaanSetuAi

How I A/B Test LLM Prompts Without Fooling Myself

Continue reading

LLM پرامپٹنگ میں مہارت: ایک ڈویلپر کی گائیڈ

Eval Driven Agent Development: How I Stopped Tuning Prompts on Vibes

ایک تیز رفتار LLM نے مجھے مفروضوں کے بارے میں کیا سکھایا

Your Evals Are Flaky Too: Stop Trusting A Pass Rate You Can't Reproduce

GLM 5.2 کے کوڈ ریویوز کا انحصار آپ کے پرامپٹس پر ہے