నన్ను నేను మోసం చేసుకోకుండా LLM ప్రాంప్ట్‌లను నేను ఎలా A/B టెస్ట్ చేస్తాను

నేను ఒకసారి ఒక సపోర్ట్ అసిస్టెంట్‌ను రూపొందించాను మరియు అది అద్భుతంగా పనిచేస్తుందని అనుకున్నాను. నేను ముప్పై టెస్ట్ కేసులను రన్ చేశాను, కొత్త ప్రాంప్ట్ ఎక్కువ స్కోరు సాధించింది, అందుకే దానిని విడుదల చేశాను.

ఆరు గంటల తర్వాత, సపోర్ట్ క్యూ ఫిర్యాదులతో నిండిపోయింది. ఆ రాత్రే నేను ఆ మార్పును వెనక్కి తీసుకోవాల్సి వచ్చింది.

ఆ ఎక్కువ స్కోరు నకిలీది. నిజమైన మెరుగుదల మరియు అదృష్టం మధ్య తేడాను గుర్తించడానికి ముప్పై ఉదాహరణలు సరిపోవు. ఆ సంఖ్య కేవలం noise మాత్రమే.

ఆ తప్పు చేయకుండా ప్రాంప్ట్‌లను ఎలా పరీక్షించాలో ఇక్కడ ఉంది.

  • చిన్న పరీక్షలు కేవలం పెద్ద మార్పులను మాత్రమే గుర్తిస్తాయి. మీరు ఒక చిన్న మెరుగుదలను కనుగొనాలనుకుంటే, మీకు ఇంకా చాలా ఎక్కువ ఉదాహరణలు అవసరం. ఒక చిన్న మార్పును కనుగొనడానికి, మీకు వెయ్యి కంటే ఎక్కువ ఉదాహరణలు అవసరం కావచ్చు.

  • రెండు వెర్షన్‌లకు ఒకే ప్రశ్నలను ఉపయోగించండి. వెర్షన్ A కి ఒక బ్యాచ్ ప్రశ్నలను, వెర్షన్ B కి మరొక బ్యాచ్ ప్రశ్నలను ఇవ్వకండి. కొన్ని ప్రశ్నలు ఇతరుల కంటే కష్టంగా ఉంటాయి. ఒకవేళ వెర్షన్ B కి సులభమైన ప్రశ్నలు వస్తే, అది అధ్వాన్నంగా ఉన్నప్పటికీ మెరుగ్గా కనిపిస్తుంది. రెండు వెర్షన్‌లను ఖచ్చితంగా ఒకే రకమైన ప్రశ్నల ద్వారా పరీక్షించండి.

  • కేవలం సగటును (average) మాత్రమే కాకుండా, రేంజ్ (range) ను కూడా చూడండి. గెలుపు ఎంత పెద్దదో సగటు మీకు చెప్పలేదు. సాధ్యమయ్యే అతి తక్కువ మరియు అతి ఎక్కువ మెరుగుదలల రేంజ్‌ను నివేదించండి. ఆ రేంజ్‌లో సున్నా (zero) ఉంటే, దానిని విడుదల చేయకండి.

  • సరైన స్కోరింగ్ పద్ధతిని ఎంచుకోండి. • ఖచ్చితమైన నాణ్యత కోసం చెక్‌లిస్ట్‌ను ఉపయోగించండి. • టోన్ లేదా సహాయకారిగా ఉండటం వంటి అస్పష్టమైన (fuzzy) నాణ్యత కోసం పక్కపక్కన పోల్చి చూసే (side-by-side comparison) పద్ధతిని ఉపయోగించండి.

  • బహుళ వెర్షన్‌ల కోసం బ్యాండిట్ (bandit) ఉపయోగించండి. మీ వద్ద మూడు లేదా అంతకంటే ఎక్కువ వెర్షన్‌లు ఉండి, వినియోగదారుల అసహనాన్ని తగ్గించాలనుకుంటే, బ్యాండిట్‌ను ఉపయోగించండి. ఇది నేర్చుకుంటూ పోయే కొద్దీ గెలిచిన వెర్షన్‌కు ఎక్కువ ట్రాఫిక్‌ను పంపిస్తుంది. దీనివల్ల వినియోగదారులు వారాల తరబడి తప్పుడు సమాధానాలను చూడకుండా నిరోధించవచ్చు.

ఈ ఉచ్చులను నివారించండి:

  • రేంజ్ లేకుండా సగటులను పోల్చడం.
  • వేర్వేరు వెర్షన్‌ల కోసం వేర్వేరు ప్రశ్నల బ్యాచ్‌లను ఉపయోగించడం.
  • పరీక్ష మధ్యలో మీ స్కోరర్‌ను మార్చడం.
  • సంఖ్యలు బాగున్న వెంటనే పరీక్షను ఆపేయడం.
  • ఒకేసారి చాలా మెట్రిక్‌లను గమనించడం. ఇది తప్పుడు విజయాన్ని చూసే అవకాశాన్ని పెంచుతుంది.
  • మానవ తీర్పుతో (human judgment) సరిచూసుకోకముందే స్కోరర్‌ను నమ్మడం.

పరీక్షను నిర్వహించడం కష్టమైన పని కాదు. ఫలితం ఎప్పుడు నిజమైనదో తెలుసుకోవడమే కష్టమైన పని.

Source: https://dev.to/kartik-nvjk/how-i-ab-test-llm-prompts-without-fooling-myself-528f

Optional learning community: https://t.me/GyaanSetuAi