९१% पास रेट. गेट ग्रीन. शिप केले. आतापर्यंतचे सर्वात वाईट रिग्रेशन.

आम्ही इंटेंट-क्लासिफिकेशन (intent-classification) टेस्टमध्ये ९१% पास रेट गाठला. थ्रेशोल्ड ९०% होता. आम्ही तो निकष पार केला. आम्ही कोड शिप केला.

ते या तिमाहीतील आमचे सर्वात वाईट रिग्रेशन होते.

समस्या आमच्या गणितात होती. आमचा इव्हॅल्युएशन स्कोअर (evaluation score) कित्येक आठवडे ९६% किंवा ९७% वर स्थिर होता. त्यानंतर, एका बदलामुळे एक विशिष्ट स्लाइस (slice) बिघडला: अस्पष्ट रिफंड विनंत्या (ambiguous refund requests). तो स्लाइस ९८% वरून ७४% वर खाली आला.

तो स्लाइस आमच्या एकूण ट्रॅफिकच्या ४% दर्शवतो. आम्ही सरासरीकडे लक्ष दिले असल्यामुळे, एकूण स्कोअर फक्त ९१% पर्यंत खाली आला. गेट ग्रीन (green) राहिले.

ॲग्रिगेट्स (Aggregates) नॉईजमध्ये (noise) अपयशांना लपवून ठेवतात.

त्या स्लाइसमधील वापरकर्त्यांना ९१% दिसले नाही. त्यांना ७४% दिसले. स्टॅटिक थ्रेशोल्ड (static threshold) तुम्हाला हे सांगते की संपूर्ण सिस्टम कोसळली आहे का. पण तुमच्या सिस्टमचा एखादा भाग निकामी होत आहे का, हे ते सांगत नाही. जर ९६ स्लाइस ठीक असतील आणि एक कोसळला, तर उच्च सरासरी त्या क्रॅशला लपवून ठेवते. तुम्हाला तुमच्या टेस्टिंग टूल्सऐवजी सपोर्ट तिकिटांद्वारे त्रुटी आढळतात.

आम्ही आमची रणनीती बदलली. आम्ही ॲब्सोल्युट नंबर्सवर (absolute numbers) गेटिंग करणे थांबवले. आता आम्ही शेवटच्या यशस्वी रनच्या (last successful run) आधारावर गेटिंग करतो.

आम्ही दोन नियम वापरतो. दोन्ही पूर्ण होणे आवश्यक आहे:

  • बेसलाईनच्या (baseline) तुलनेत कोणताही एक स्लाइस ३ पॉइंट्सपेक्षा जास्त खाली पडू नये.
  • एकूण ॲग्रिगेट बेसलाईनच्या तुलनेत १.५ पॉइंट्सपेक्षा जास्त खाली पडू नये.

आमच्या अलीकडील अपयशात, रिफंड स्लाइस २४ पॉइंट्सने खाली आला होता. पहिला नियम असता तर तो लगेच पकडला गेला असता.

डेल्टा गेटिंग ट्रॅप्स (delta gating traps) पासून सावध राहा. जर तुमची बेसलाईन प्रत्येक रनला अपडेट होत असेल, तर तुम्ही अपयशाकडे सरकत जाऊ शकता. दररोज ०.५ पॉईंटची घट प्रत्येक टेस्टमध्ये पास होते. तुम्ही हळूहळू एका खराब उत्पादनाकडे सरकत जाता.

तुमचे टेस्टिंग सुधारण्यासाठी या पायऱ्या फॉलो करा:

  • तुमची मेन ब्रांच (main branch) ग्रीन असतानाच तुमची बेसलाईन अपडेट करा.
  • स्कोअरमध्ये होणारी कोणतीही हेतुपुरस्सर घट मंजूर करण्यासाठी मानवी परवानगी आवश्यक करा.
  • तुमची बेसलाईन ही काय काम करते याचा रेकॉर्ड असावा, केवळ शेवटचे काय घडले याचा नाही.
  • तुमच्या शेवटच्या ५ ग्रीन रन्सचा व्हेरिएन्स (variance) तपासा. जर एखादा स्लाइस तुमच्या थ्रेशोल्डपेक्षा जास्त बदलत असेल, तर तुमचा थ्रेशोल्ड म्हणजे केवळ नॉईज (noise) आहे.
  • तुमचा सर्वात लहान स्लाइस टेस्ट करा. ॲग्रिगेटला लक्षात येण्यापूर्वी तो किती खाली जाऊ शकतो, हे तपासा. जर उत्तर मोठी संख्या असेल, तर तुमचा ॲग्रिगेट त्रुटी लपवत आहे.

Source: https://dev.to/ethanwritesai/91-pass-rate-gate-green-shipped-worst-regression-we-had-all-quarter-4dfn

Optional learning community: https://t.me/GyaanSetuAi