91% पास रेट। गेट ग्रीन। शिप कर दिया। अब तक का सबसे खराब रिग्रेशन।
हमने एक intent-classification टेस्ट में 91% पास रेट हासिल किया। थ्रेशोल्ड 90% था। हमने मानक को पार कर लिया। हमने कोड शिप कर दिया।
यह तिमाही का हमारा सबसे खराब रिग्रेशन था।
समस्या हमारे गणित (math) में थी। हमारा इवैल्यूएशन स्कोर हफ्तों तक 96% या 97% पर बना रहा। फिर, एक बदलाव ने एक विशिष्ट स्लाइस (slice) को खराब कर दिया: अस्पष्ट रिफंड अनुरोध (ambiguous refund requests)। वह स्लाइस 98% से गिरकर 74% पर आ गया।
वह स्लाइस हमारे कुल ट्रैफिक का 4% है। क्योंकि हमने औसत (average) देखा, इसलिए कुल स्कोर केवल 91% तक गिरा। गेट ग्रीन ही रहा।
एग्रीगेट्स (Aggregates) शोर (noise) के भीतर विफलताओं को छिपा देते हैं।
उस स्लाइस के उपयोगकर्ताओं ने 91% नहीं देखा। उन्होंने 74% देखा। एक स्टैटिक थ्रेशोल्ड आपको यह बताता है कि क्या पूरा सिस्टम ढह गया है। यह आपको यह नहीं बताता कि आपके सिस्टम का एक हिस्सा खत्म हो रहा है। यदि 96 स्लाइस ठीक हैं और एक क्रैश हो जाता है, तो एक उच्च औसत उस क्रैश को छिपा देता है। आप
