నన్ను నేను మోసం చేసుకోకుండా LLM ప్రాంప్ట్లను నేను ఎలా A/B టెస్ట్ చేస్తాను
నేను ఒకసారి ఒక సపోర్ట్ అసిస్టెంట్ను రూపొందించాను మరియు అది అద్భుతంగా పనిచేస్తుందని అనుకున్నాను. నేను ముప్పై టెస్ట్ కేసులను రన్ చేశాను, కొత్త ప్రాంప్ట్ ఎక్కువ స్కోరు సాధించింది, అందుకే దానిని విడుదల చేశాను.
ఆరు గంటల తర్వాత, సపోర్ట్ క్యూ ఫిర్యాదులతో నిండిపోయింది. ఆ రాత్రే నేను ఆ మార్పును వెనక్కి తీసుకోవాల్సి వచ్చింది.
ఆ ఎక్కువ స్కోరు నకిలీది. నిజమైన మెరుగుదల మరియు అదృష్టం మధ్య తేడాను గుర్తించడానికి ముప్పై ఉదాహరణలు సరిపోవు. ఆ సంఖ్య కేవలం noise మాత్రమే.
ఆ తప్పు చేయకుండా ప్రాంప్ట్లను ఎలా పరీక్షించాలో ఇక్కడ ఉంది.
చిన్న పరీక్షలు కేవలం పెద్ద మార్పులను మాత్రమే గుర్తిస్తాయి. మీరు ఒక చిన్న మెరుగుదలను కనుగొనాలనుకుంటే, మీకు ఇంకా చాలా ఎక్కువ ఉదాహరణలు అవసరం. ఒక చిన్న మార్పును కనుగొనడానికి, మీకు వెయ్యి కంటే ఎక్కువ ఉదాహరణలు అవసరం కావచ్చు.
రెండు వెర్షన్లకు ఒకే ప్రశ్నలను ఉపయోగించండి. వెర్షన్ A కి ఒక బ్యాచ్ ప్రశ్నలను, వెర్షన్ B కి మరొక బ్యాచ్ ప్రశ్నలను ఇవ్వకండి. కొన్ని ప్రశ్నలు ఇతరుల కంటే కష్టంగా ఉంటాయి. ఒకవేళ వెర్షన్ B కి సులభమైన ప్రశ్నలు వస్తే, అది అధ్వాన్నంగా ఉన్నప్పటికీ మెరుగ్గా కనిపిస్తుంది. రెండు వెర్షన్లను ఖచ్చితంగా ఒకే రకమైన ప్రశ్నల ద్వారా పరీక్షించండి.
కేవలం సగటును (average) మాత్రమే కాకుండా, రేంజ్ (range) ను కూడా చూడండి. గెలుపు ఎంత పెద్దదో సగటు మీకు చెప్పలేదు. సాధ్యమయ్యే అతి తక్కువ మరియు అతి ఎక్కువ మెరుగుదలల రేంజ్ను నివేదించండి. ఆ రేంజ్లో సున్నా (zero) ఉంటే, దానిని విడుదల చేయకండి.
సరైన స్కోరింగ్ పద్ధతిని ఎంచుకోండి. • ఖచ్చితమైన నాణ్యత కోసం చెక్లిస్ట్ను ఉపయోగించండి. • టోన్ లేదా సహాయకారిగా ఉండటం వంటి అస్పష్టమైన (fuzzy) నాణ్యత కోసం పక్కపక్కన పోల్చి చూసే (side-by-side comparison) పద్ధతిని ఉపయోగించండి.
బహుళ వెర్షన్ల కోసం బ్యాండిట్ (bandit) ఉపయోగించండి. మీ వద్ద మూడు లేదా అంతకంటే ఎక్కువ వెర్షన్లు ఉండి, వినియోగదారుల అసహనాన్ని తగ్గించాలనుకుంటే, బ్యాండిట్ను ఉపయోగించండి. ఇది నేర్చుకుంటూ పోయే కొద్దీ గెలిచిన వెర్షన్కు ఎక్కువ ట్రాఫిక్ను పంపిస్తుంది. దీనివల్ల వినియోగదారులు వారాల తరబడి తప్పుడు సమాధానాలను చూడకుండా నిరోధించవచ్చు.
ఈ ఉచ్చులను నివారించండి:
- రేంజ్ లేకుండా సగటులను పోల్చడం.
- వేర్వేరు వెర్షన్ల కోసం వేర్వేరు ప్రశ్నల బ్యాచ్లను ఉపయోగించడం.
- పరీక్ష మధ్యలో మీ స్కోరర్ను మార్చడం.
- సంఖ్యలు బాగున్న వెంటనే పరీక్షను ఆపేయడం.
- ఒకేసారి చాలా మెట్రిక్లను గమనించడం. ఇది తప్పుడు విజయాన్ని చూసే అవకాశాన్ని పెంచుతుంది.
- మానవ తీర్పుతో (human judgment) సరిచూసుకోకముందే స్కోరర్ను నమ్మడం.
పరీక్షను నిర్వహించడం కష్టమైన పని కాదు. ఫలితం ఎప్పుడు నిజమైనదో తెలుసుకోవడమే కష్టమైన పని.
Source: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f
Optional learning community: https://t.me/GyaanSetuAi
