मैं खुद को धोखा दिए बिना LLM प्रॉम्प्ट्स का A/B टेस्ट कैसे करता हूँ

मैंने एक बार एक सपोर्ट असिस्टेंट बनाया और मुझे लगा कि यह सुपरहिट होगा। मैंने तीस टेस्ट केस चलाए, नए प्रॉम्प्ट का स्कोर बेहतर था, और मैंने उसे रिलीज़ कर दिया।

छह घंटे बाद, सपोर्ट क्यू (queue) शिकायतों से भर गई। मुझे उसी रात उस बदलाव को वापस लेना पड़ा।

वह बेहतर स्कोर फर्जी था। वास्तविक सुधार और किस्मत के बीच अंतर करने के लिए तीस उदाहरण पर्याप्त नहीं हैं। वह संख्या महज शोर (noise) थी।

यहाँ बताया गया है कि बिना वह गलती किए आप प्रॉम्प्ट्स का टेस्ट कैसे कर सकते हैं।

  • छोटे टेस्ट केवल बड़े बदलावों को ही पकड़ पाते हैं। यदि आप छोटा सुधार ढूँढना चाहते हैं, तो आपको बहुत अधिक उदाहरणों की आवश्यकता होगी। एक बहुत छोटे बदलाव को खोजने के लिए, आपको एक हज़ार से अधिक उदाहरणों की आवश्यकता हो सकती है।

  • दोनों वर्ज़न के लिए एक ही प्रश्न उपयोग करें। वर्ज़न A को प्रश्नों का एक बैच और वर्ज़न B को दूसरा बैच न दें। कुछ प्रश्न दूसरों की तुलना में कठिन होते हैं। यदि वर्ज़न B को आसान प्रश्न मिलते हैं, तो वह बेहतर दिखाई देगा भले ही वह वास्तव में खराब हो। दोनों वर्ज़न को प्रश्नों के बिल्कुल एक ही सेट से गुज़ारें।

  • केवल औसत (average) न देखें, बल्कि रेंज (range) देखें। औसत आपको यह नहीं बताता कि जीत कितनी बड़ी है। संभावित सबसे छोटे और सबसे बड़े सुधारों की एक रेंज रिपोर्ट करें। यदि उस रेंज में शून्य शामिल है, तो उसे रिलीज़ न करें।

  • सही स्कोरिंग विधि चुनें। • पूर्ण गुणवत्ता (absolute quality) के लिए चेकलिस्ट का उपयोग करें। • टोन या उपयोगिता जैसी अस्पष्ट गुणवत्ता (fuzzy quality) के लिए साइड-बाय-साइड तुलना का उपयोग करें।

  • कई वर्ज़न के लिए बैंडिट (bandit) का उपयोग करें। यदि आपके पास तीन या अधिक वर्ज़न हैं और आप उपयोगकर्ताओं की हताशा को कम करना चाहते हैं, तो बैंडिट का उपयोग करें। जैसे-जैसे यह सीखता है, यह जीतने वाले वर्ज़न को अधिक ट्रैफिक भेजता है। यह उपयोगकर्ताओं को हफ्तों तक खराब उत्तर देखने से रोकता है।

इन जाल से बचें:

  • रेंज के बिना औसत की तुलना करना।
  • अलग-अलग वर्ज़न के लिए अलग-अलग प्रश्नों के बैच का उपयोग करना।
  • टेस्ट के बीच में अपने स्कोरर को बदलना।
  • जैसे ही नंबर अच्छे दिखने लगें, टेस्ट को रोक देना।
  • एक साथ बहुत सारे मेट्रिक्स देखना। इससे फर्जी जीत देखने की संभावना बढ़ जाती है।
  • मानवीय निर्णय (human judgment) के विरुद्ध सत्यापन करने से पहले स्कोरर पर भरोसा करना।

कठिन हिस्सा टेस्ट चलाना नहीं है। कठिन हिस्सा यह जानना है कि परिणाम वास्तविक है या नहीं।

स्रोत: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi