હું મારી જાતને છેતરાયા વગર LLM પ્રોમ્પ્ટ્સનું A/B ટેસ્ટિંગ કેવી રીતે કરું છું
મેં એકવાર સપોર્ટ આસિસ્ટન્ટ બનાવ્યો હતો અને મને લાગ્યું કે તે સફળ થશે. મેં ત્રીસ ટેસ્ટ કેસ ચલાવ્યા, નવા પ્રોમ્પ્ટે વધુ સ્કોર મેળવ્યો, અને મેં તેને લોન્ચ કરી દીધો.
છ કલાક પછી, સપોર્ટ ક્યુ (queue) ફરિયાદોથી ભરાઈ ગઈ. મારે તે જ રાત્રે તે ફેરફાર પાછો ખેંચવો પડ્યો.
તે ઊંચો સ્કોર નકલી હતો. વાસ્તવિક સુધારો અને નસીબ વચ્ચેનો તફાવત સમજવા માટે ત્રીસ ઉદાહરણો પૂરતા નથી. તે આંકડો માત્ર અવાજ (noise) હતો.
આ ભૂલ કર્યા વગર તમે પ્રોમ્પ્ટ્સ કેવી રીતે ટેસ્ટ કરી શકો છો તે અહીં છે.
નાના ટેસ્ટ માત્ર મોટા ફેરફારો જ પકડી શકે છે. જો તમે નાનો સુધારો શોધવા માંગતા હોવ, તો તમારે ઘણા વધુ ઉદાહરણોની જરૂર પડશે. નાનો ફેરફાર શોધવા માટે, તમારે એક હજારથી વધુ ઉદાહરણોની જરૂર પડી શકે છે.
બંને વર્ઝન માટે સમાન પ્રશ્નોનો ઉપયોગ કરો. વર્ઝન A ને પ્રશ્નોનો એક સેટ અને વર્ઝન B ને બીજો સેટ ન આપો. કેટલાક પ્રશ્નો બીજા કરતા વધુ અઘરા હોય છે. જો વર્ઝન B ને સરળ પ્રશ્નો મળે, તો તે ખરાબ હોવા છતાં વધુ સારો દેખાઈ શકે છે. બંને વર્ઝનને પ્રશ્નોના બરાબર સમાન સેટમાંથી પસાર કરો.
માત્ર સરેરાશ (average) નહીં, પણ રેન્જ (range) જુઓ. સરેરાશ તમને એ નથી જણાવતી કે વિજય કેટલો મોટો છે. સંભવિત નાનામાં નાના અને મોટામાં મોટા સુધારાની રેન્જ જણાવો. જો તે રેન્જમાં શૂન્યનો સમાવેશ થતો હોય, તો તેને લોન્ચ કરશો નહીં.
યોગ્ય સ્કોરિંગ પદ્ધતિ પસંદ કરો. • સંપૂર્ણ ગુણવત્તા માટે ચેકલિસ્ટનો ઉપયોગ કરો. • ટોન (tone) અથવા ઉપયોગિતા જેવી અસ્પષ્ટ ગુણવત્તા માટે સાઈડ-બાય-સાઈડ સરખામણીનો ઉપયોગ કરો.
મલ્ટીપલ વર્ઝન માટે 'બેન્ડિટ' (bandit) નો ઉપયોગ કરો. જો તમારી પાસે ત્રણ કે તેથી વધુ વર્ઝન હોય અને તમે વપરાશકર્તાઓની હતાશા મર્યાદિત કરવા માંગતા હોવ, તો બેન્ડિટનો ઉપયોગ કરો. તે શીખતાની સાથે જ વિજેતા વર્ઝન પર વધુ ટ્રાફિક મોકલે છે. આનાથી વપરાશકર્તાઓ અઠવાડિયા સુધી ખરાબ જવાબો જોતા અટકશે.
આ છટકુંઓથી બચો:
- રેન્જ વગર સરેરાશની સરખામણી કરવી.
- અલગ-અલગ વર્ઝન માટે પ્રશ્નોના અલગ-અલગ સેટનો ઉપયોગ કરવો.
- ટેસ્ટની વચ્ચે સ્કોરર બદલવો.
- આંકડા સારા દેખાય તે ક્ષણે ટેસ્ટ રોકી દેવો.
- એકસાથે ઘણા બધા મેટ્રિક્સ જોવા. આનાથી નકલી વિજય જોવાની તમારી શક્યતા વધી જાય છે.
- માનવ નિર્ણય (human judgment) સામે ચકાસણી કર્યા વગર સ્કોરર પર વિશ્વાસ કરવો.
મુશ્કેલ ભાગ ટેસ્ટ ચલાવવાનો નથી. મુશ્કેલ ભાગ એ જાણવાનો છે કે પરિણામ વાસ્તવિક છે કે નહીં.
સ્ત્રોત: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f
વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi
