91% పాస్ రేట్. గేట్ గ్రీన్. షిప్డ్. ఇప్పటివరకు చూసిన అత్యంత దారుణమైన రిగ్రెషన్.
మేము ఒక ఇంటెంట్-క్లాసిఫికేషన్ (intent-classification) టెస్ట్లో 91% పాస్ రేట్ను సాధించాము. థ్రెషోల్డ్ (threshold) 90% ఉండాలి. మేము ఆ స్థాయిని దాటాము. కోడ్ను షిప్ చేశాము.
అది ఆ త్రైమాసికంలో మాకు ఎదురైన అత్యంత దారుణమైన రిగ్రెషన్.
సమస్య మా గణాంకాలలోనే ఉంది. మా ఎవాల్యుయేషన్ స్కోర్ (evaluation score) వారాల తరబడి 96% లేదా 97% వద్దే ఉంది. ఆ తర్వాత, ఒక మార్పు వల్ల ఒక నిర్దిష్ట స్లైస్ (slice) దెబ్బతింది: అస్పష్టమైన రీఫండ్ అభ్యర్థనలు (ambiguous refund requests). ఆ స్లైస్ స్కోరు 98% నుండి 74%కి పడిపోయింది.
ఆ స్లైస్ మా మొత్తం ట్రాఫిక్లో 4% ఉంటుంది. మేము సగటును (average) మాత్రమే చూడటం వల్ల, మొత్తం స్కోరు కేవలం 91%కి మాత్రమే తగ్గింది. గేట్ గ్రీన్ (gate green) గానే ఉంది.
అగ్రిగేట్స్ (Aggregates) వైఫల్యాలను నాయిస్ (noise) లోపల దాచిపెడతాయి.
ఆ స్లైస్లోని వినియోగదారులు 91%ని చూడలేదు. వారు 74%ని చూశారు. ఒక స్టాటిక్ థ్రెషోల్డ్ (static threshold) మొత్తం సిస్టమ్ విఫలమైందో లేదో చెబుతుంది. కానీ మీ సిస్టమ్లోని ఒక భాగం దెబ్బతింటుందో లేదో అది చెప్పదు. 96 స్లైస్లు బాగుండి, ఒక్కటి విఫలమైనా, అధిక సగటు ఆ వైఫల్యాన్ని దాచిపెడుతుంది. దీనివల్ల మీరు టెస్టింగ్ టూల్స్ ద్వారా కాకుండా, సపోర్ట్ టికెట్ల ద్వారా మాత్రమే లోపాన్ని గుర్తిస్తారు.
మేము మా వ్యూహాన్ని మార్చుకున్నాము. అబ్సల్యూట్ నంబర్స్ (absolute numbers) ఆధారంగా గేటింగ్ చేయడం మానేసాము. ఇప్పుడు మేము చివరిసారి విజయవంతంగా జరిగిన రన్ (last successful run) ఆధారంగా గేటింగ్ చేస్తున్నాము.
మేము రెండు నియమాలను ఉపయోగిస్తున్నాము. రెండూ తప్పనిసరిగా పాస్ కావాలి:
- బేస్లైన్ (baseline) తో పోలిస్తే ఏ ఒక్క స్లైస్ కూడా 3 పాయింట్ల కంటే ఎక్కువ తగ్గకూడదు.
- మొత్తం అగ్రిగేట్ బేస్లైన్ కంటే 1.5 పాయింట్ల కంటే ఎక్కువ తగ్గకూడదు.
మా ఇటీవలి వైఫల్యంలో, రీఫండ్ స్లైస్ 24 పాయింట్లు పడిపోయింది. మొదటి నియమం దానిని వెంటనే పసిగట్టేది.
డెల్టా గేటింగ్ ట్రాప్స్ (delta gating traps) పట్ల జాగ్రత్తగా ఉండండి. మీ బేస్లైన్ ప్రతి రన్తో అప్డేట్ అవుతుంటే, మీరు తెలియకుండానే వైఫల్యాల వైపు వెళ్ళిపోవచ్చు. ప్రతిరోజూ 0.5 పాయింట్ తగ్గినా ప్రతి టెస్ట్ పాస్ అవుతుంది. అలా మీరు నెమ్మదిగా ఒక చెత్త ఉత్పత్తి (bad product) వైపు జారిపోతారు.
మీ టెస్టింగ్ను సరిదిద్దడానికి ఈ దశలను అనుసరించండి:
- మీ మెయిన్ బ్రాంచ్ (main branch) గ్రీన్ (green) గా ఉన్నప్పుడు మాత్రమే మీ బేస్లైన్ను అప్డేట్ చేయండి.
- స్కోర్లలో ఉద్దేశపూర్వకమైన తగ్గుదల ఉంటే, దానికి మనిషి (human) ఆమోదం తప్పనిసరి చేయండి.
- మీ బేస్లైన్ అనేది కేవలం చివరిసారి ఏం జరిగిందో చెప్పేదిగా కాకుండా, ఏది సరిగ్గా పనిచేస్తుందో తెలిపే రికార్డుగా ఉండాలి.
- మీ చివరి 5 గ్రీన్ రన్ల వేరియెన్స్ (variance) ను తనిఖీ చేయండి. ఒక స్లైస్ మీ థ్రెషోల్డ్ కంటే ఎక్కువగా హెచ్చుతగ్గులకు లోనైతే, మీ థ్రెషోల్డ్ కేవలం నాయిస్ (noise) మాత్రమే.
- మీ అతి చిన్న స్లైస్ను టెస్ట్ చేయండి. అగ్రిగేట్ గమనించకముందే అది ఎంత వరకు పడిపోగలదో అడగండి. సమాధానం ఒక పెద్ద సంఖ్య అయితే, మీ అగ్రిగేట్ లోపాలను దాచిపెడుతోంది ಎಂದమాట.
Optional learning community: https://t.me/GyaanSetuAi
