91% పాస్ రేట్. గేట్ గ్రీన్. షిప్డ్. ఇప్పటివరకు చూసిన అత్యంత దారుణమైన రిగ్రెషన్.

మేము ఒక ఇంటెంట్-క్లాసిఫికేషన్ (intent-classification) టెస్ట్‌లో 91% పాస్ రేట్‌ను సాధించాము. థ్రెషోల్డ్ (threshold) 90% ఉండాలి. మేము ఆ స్థాయిని దాటాము. కోడ్‌ను షిప్ చేశాము.

అది ఆ త్రైమాసికంలో మాకు ఎదురైన అత్యంత దారుణమైన రిగ్రెషన్.

సమస్య మా గణాంకాలలోనే ఉంది. మా ఎవాల్యుయేషన్ స్కోర్ (evaluation score) వారాల తరబడి 96% లేదా 97% వద్దే ఉంది. ఆ తర్వాత, ఒక మార్పు వల్ల ఒక నిర్దిష్ట స్లైస్ (slice) దెబ్బతింది: అస్పష్టమైన రీఫండ్ అభ్యర్థనలు (ambiguous refund requests). ఆ స్లైస్ స్కోరు 98% నుండి 74%కి పడిపోయింది.

ఆ స్లైస్ మా మొత్తం ట్రాఫిక్‌లో 4% ఉంటుంది. మేము సగటును (average) మాత్రమే చూడటం వల్ల, మొత్తం స్కోరు కేవలం 91%కి మాత్రమే తగ్గింది. గేట్ గ్రీన్ (gate green) గానే ఉంది.

అగ్రిగేట్స్ (Aggregates) వైఫల్యాలను నాయిస్ (noise) లోపల దాచిపెడతాయి.

ఆ స్లైస్‌లోని వినియోగదారులు 91%ని చూడలేదు. వారు 74%ని చూశారు. ఒక స్టాటిక్ థ్రెషోల్డ్ (static threshold) మొత్తం సిస్టమ్ విఫలమైందో లేదో చెబుతుంది. కానీ మీ సిస్టమ్‌లోని ఒక భాగం దెబ్బతింటుందో లేదో అది చెప్పదు. 96 స్లైస్‌లు బాగుండి, ఒక్కటి విఫలమైనా, అధిక సగటు ఆ వైఫల్యాన్ని దాచిపెడుతుంది. దీనివల్ల మీరు టెస్టింగ్ టూల్స్ ద్వారా కాకుండా, సపోర్ట్ టికెట్ల ద్వారా మాత్రమే లోపాన్ని గుర్తిస్తారు.

మేము మా వ్యూహాన్ని మార్చుకున్నాము. అబ్సల్యూట్ నంబర్స్ (absolute numbers) ఆధారంగా గేటింగ్ చేయడం మానేసాము. ఇప్పుడు మేము చివరిసారి విజయవంతంగా జరిగిన రన్ (last successful run) ఆధారంగా గేటింగ్ చేస్తున్నాము.

మేము రెండు నియమాలను ఉపయోగిస్తున్నాము. రెండూ తప్పనిసరిగా పాస్ కావాలి:

  • బేస్‌లైన్ (baseline) తో పోలిస్తే ఏ ఒక్క స్లైస్ కూడా 3 పాయింట్ల కంటే ఎక్కువ తగ్గకూడదు.
  • మొత్తం అగ్రిగేట్ బేస్‌లైన్ కంటే 1.5 పాయింట్ల కంటే ఎక్కువ తగ్గకూడదు.

మా ఇటీవలి వైఫల్యంలో, రీఫండ్ స్లైస్ 24 పాయింట్లు పడిపోయింది. మొదటి నియమం దానిని వెంటనే పసిగట్టేది.

డెల్టా గేటింగ్ ట్రాప్స్ (delta gating traps) పట్ల జాగ్రత్తగా ఉండండి. మీ బేస్‌లైన్ ప్రతి రన్‌తో అప్‌డేట్ అవుతుంటే, మీరు తెలియకుండానే వైఫల్యాల వైపు వెళ్ళిపోవచ్చు. ప్రతిరోజూ 0.5 పాయింట్ తగ్గినా ప్రతి టెస్ట్ పాస్ అవుతుంది. అలా మీరు నెమ్మదిగా ఒక చెత్త ఉత్పత్తి (bad product) వైపు జారిపోతారు.

మీ టెస్టింగ్‌ను సరిదిద్దడానికి ఈ దశలను అనుసరించండి:

  • మీ మెయిన్ బ్రాంచ్ (main branch) గ్రీన్ (green) గా ఉన్నప్పుడు మాత్రమే మీ బేస్‌లైన్‌ను అప్‌డేట్ చేయండి.
  • స్కోర్‌లలో ఉద్దేశపూర్వకమైన తగ్గుదల ఉంటే, దానికి మనిషి (human) ఆమోదం తప్పనిసరి చేయండి.
  • మీ బేస్‌లైన్ అనేది కేవలం చివరిసారి ఏం జరిగిందో చెప్పేదిగా కాకుండా, ఏది సరిగ్గా పనిచేస్తుందో తెలిపే రికార్డుగా ఉండాలి.
  • మీ చివరి 5 గ్రీన్ రన్‌ల వేరియెన్స్ (variance) ను తనిఖీ చేయండి. ఒక స్లైస్ మీ థ్రెషోల్డ్ కంటే ఎక్కువగా హెచ్చుతగ్గులకు లోనైతే, మీ థ్రెషోల్డ్ కేవలం నాయిస్ (noise) మాత్రమే.
  • మీ అతి చిన్న స్లైస్‌ను టెస్ట్ చేయండి. అగ్రిగేట్ గమనించకముందే అది ఎంత వరకు పడిపోగలదో అడగండి. సమాధానం ఒక పెద్ద సంఖ్య అయితే, మీ అగ్రిగేట్ లోపాలను దాచిపెడుతోంది ಎಂದమాట.

Source: https://dev.to/ethanwritesai/91-pass-rate-gate-green-shipped-worst-regression-we-had-all-quarter-4dfn

Optional learning community: https://t.me/GyaanSetuAi