स्वतःला फसवल्याशिवाय मी LLM प्रॉम्प्ट्सचे A/B टेस्टिंग कसे करतो

मी एकदा एक सपोर्ट असिस्टंट तयार केला आणि मला वाटले की मी काहीतरी जबरदस्त बनवले आहे. मी तीस टेस्ट केसेस चालवल्या, नवीन प्रॉम्प्टचा स्कोअर जास्त आला आणि मी तो लाँच केला.

सहा तासांनंतर, सपोर्ट क्यू (queue) तक्रारींनी भरून गेला. मला त्याच रात्री तो बदल मागे घ्यावा लागला.

तो जास्त स्कोअर खोटा होता. खरा सुधारणा आणि नशीब यातील फरक ओळखण्यासाठी तीस उदाहरणे पुरेशी नाहीत. तो आकडा केवळ एक गोंधळ (noise) होता.

ती चूक न करता तुम्ही प्रॉम्प्ट्स कसे टेस्ट करू शकता, ते खाली दिले आहे.

  • लहान चाचण्या केवळ मोठे बदलच पकडू शकतात. जर तुम्हाला थोडीशी सुधारणा शोधायची असेल, तर तुम्हाला अधिक उदाहरणांची गरज आहे. अगदी सूक्ष्म बदल शोधण्यासाठी तुम्हाला हजारो उदाहरणांची आवश्यकता असू शकते.

  • दोन्ही व्हर्जनसाठी सारखेच प्रश्न वापरा. व्हर्जन A ला प्रश्नांचा एक संच आणि व्हर्जन B ला दुसरा संच देऊ नका. काही प्रश्न इतरांपेक्षा कठीण असतात. जर व्हर्जन B ला सोपे प्रश्न मिळाले, तर ते खराब असूनही चांगले वाटू शकते. दोन्ही व्हर्जनना अगदी सारख्याच प्रश्नांच्या संचातून चालवून पहा.

  • केवळ सरासरी (average) न पाहता रेंज (range) पहा. सरासरीवरून तुम्हाला तो विजय किती मोठा आहे हे समजत नाही. संभाव्य सर्वात कमी आणि सर्वात जास्त सुधारणांची रेंज सांगा. जर त्या रेंजमध्ये शून्य येत असेल, तर तो बदल लाँच करू नका.

  • योग्य स्कोअरिंग पद्धत निवडा. • निरपेक्ष गुणवत्तेसाठी (absolute quality) चेकलिस्ट वापरा. • टोन (tone) किंवा उपयुक्तता यांसारख्या अस्पष्ट गुणवत्तेसाठी (fuzzy quality) बाजूला-बाजूला तुलना (side-by-side comparison) करा.

  • अनेक व्हर्जनसाठी बँडिट (bandit) वापरा. जर तुमच्याकडे तीन किंवा अधिक व्हर्जन असतील आणि तुम्हाला वापरकर्त्यांचा त्रास कमी करायचा असेल, तर बँडिट वापरा. ते शिकत असताना जिंकणाऱ्या व्हर्जनकडे अधिक ट्रॅफिक पाठवते. यामुळे वापरकर्त्यांना आठवडेभर चुकीची उत्तरे मिळण्यापासून वाचवता येते.

या चुका टाळा:

  • रेंजशिवाय सरासरीची तुलना करणे.
  • वेगवेगळ्या व्हर्जनसाठी प्रश्नांचे वेगवेगळे संच वापरणे.
  • चाचणीच्या मध्यभागी स्कोअरर बदलणे.
  • आकडेवारी चांगली दिसताच चाचणी थांबवणे.
  • एकाच वेळी खूप जास्त मेट्रिक्स (metrics) पाहणे. यामुळे तुम्हाला खोटा विजय दिसण्याची शक्यता वाढते.
  • मानवी निर्णयाशी पडताळणी करण्यापूर्वी स्कोअररवर विश्वास ठेवणे.

चाचणी चालवणे कठीण नाही. निकाल खरा आहे हे ओळखणे कठीण आहे.

Source: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f

Optional learning community: https://t.me/GyaanSetuAi