मैं खुद को धोखा दिए बिना LLM प्रॉम्प्ट्स का A/B टेस्ट कैसे करता हूँ

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial2 सप्ताह पहले2मिनट पढ़ें

मैं खुद को धोखा दिए बिना LLM प्रॉम्प्ट्स का A/B टेस्ट कैसे करता हूँ

मैंने एक बार एक सपोर्ट असिस्टेंट बनाया और मुझे लगा कि यह सुपरहिट होगा। मैंने तीस टेस्ट केस चलाए, नए प्रॉम्प्ट का स्कोर बेहतर था, और मैंने उसे रिलीज़ कर दिया।

छह घंटे बाद, सपोर्ट क्यू (queue) शिकायतों से भर गई। मुझे उसी रात उस बदलाव को वापस लेना पड़ा।

वह बेहतर स्कोर फर्जी था। वास्तविक सुधार और किस्मत के बीच अंतर करने के लिए तीस उदाहरण पर्याप्त नहीं हैं। वह संख्या महज शोर (noise) थी।

यहाँ बताया गया है कि बिना वह गलती किए आप प्रॉम्प्ट्स का टेस्ट कैसे कर सकते हैं।

छोटे टेस्ट केवल बड़े बदलावों को ही पकड़ पाते हैं। यदि आप छोटा सुधार ढूँढना चाहते हैं, तो आपको बहुत अधिक उदाहरणों की आवश्यकता होगी। एक बहुत छोटे बदलाव को खोजने के लिए, आपको एक हज़ार से अधिक उदाहरणों की आवश्यकता हो सकती है।
दोनों वर्ज़न के लिए एक ही प्रश्न उपयोग करें। वर्ज़न A को प्रश्नों का एक बैच और वर्ज़न B को दूसरा बैच न दें। कुछ प्रश्न दूसरों की तुलना में कठिन होते हैं। यदि वर्ज़न B को आसान प्रश्न मिलते हैं, तो वह बेहतर दिखाई देगा भले ही वह वास्तव में खराब हो। दोनों वर्ज़न को प्रश्नों के बिल्कुल एक ही सेट से गुज़ारें।
केवल औसत (average) न देखें, बल्कि रेंज (range) देखें। औसत आपको यह नहीं बताता कि जीत कितनी बड़ी है। संभावित सबसे छोटे और सबसे बड़े सुधारों की एक रेंज रिपोर्ट करें। यदि उस रेंज में शून्य शामिल है, तो उसे रिलीज़ न करें।
सही स्कोरिंग विधि चुनें। • पूर्ण गुणवत्ता (absolute quality) के लिए चेकलिस्ट का उपयोग करें। • टोन या उपयोगिता जैसी अस्पष्ट गुणवत्ता (fuzzy quality) के लिए साइड-बाय-साइड तुलना का उपयोग करें।
कई वर्ज़न के लिए बैंडिट (bandit) का उपयोग करें। यदि आपके पास तीन या अधिक वर्ज़न हैं और आप उपयोगकर्ताओं की हताशा को कम करना चाहते हैं, तो बैंडिट का उपयोग करें। जैसे-जैसे यह सीखता है, यह जीतने वाले वर्ज़न को अधिक ट्रैफिक भेजता है। यह उपयोगकर्ताओं को हफ्तों तक खराब उत्तर देखने से रोकता है।

इन जाल से बचें:

रेंज के बिना औसत की तुलना करना।
अलग-अलग वर्ज़न के लिए अलग-अलग प्रश्नों के बैच का उपयोग करना।
टेस्ट के बीच में अपने स्कोरर को बदलना।
जैसे ही नंबर अच्छे दिखने लगें, टेस्ट को रोक देना।
एक साथ बहुत सारे मेट्रिक्स देखना। इससे फर्जी जीत देखने की संभावना बढ़ जाती है।
मानवीय निर्णय (human judgment) के विरुद्ध सत्यापन करने से पहले स्कोरर पर भरोसा करना।

कठिन हिस्सा टेस्ट चलाना नहीं है। कठिन हिस्सा यह जानना है कि परिणाम वास्तविक है या नहीं।

स्रोत: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

मैं खुद को धोखा दिए बिना LLM प्रॉम्प्ट्स का A/B टेस्ट कैसे करता हूँ

पढ़ना जारी रखें

LLM प्रॉम्प्टिंग में महारत हासिल करना: डेवलपर्स के लिए एक गाइड

इवैल-ड्रिवन एजेंट डेवलपमेंट: कैसे मैंने वाइब्स के आधार पर प्रॉम्प्ट्स को ट्यून करना बंद कर दिया

एक तेज़ LLM ने मुझे धारणाओं के बारे में क्या सिखाया

Your Evals Are Flaky Too: Stop Trusting A Pass Rate You Can't Reproduce

GLM 5.2 की कोड समीक्षा आपके प्रॉम्प्ट्स पर निर्भर करती है