91% Pass Rate. Gate zielony. Wypuszczone. Najgorsza regresja w historii.
Osiągnęliśmy 91% pass rate w teście klasyfikacji intencji. Próg wynosił 90%. Przekroczyliśmy wymagany poziom. Wypuściliśmy kod.
To była nasza najgorsza regresja w tym kwartale.
Problemem była nasza matematyka. Nasz wynik ewaluacji utrzymywał się na poziomie 96% lub 97% przez wiele tygodni. Następnie jedna zmiana zepsuła konkretny segment: niejednoznaczne prośby o zwrot pieniędzy. Ten segment spadł z 98% do 74%.
Ten segment stanowi 4% naszego całkowitego ruchu. Ponieważ patrzyliśmy na średnią, całkowity wynik spadł tylko do 91%. Gate pozostał zielony.
Agregaty ukrywają błędy w szumie.
Użytkownicy w tym segmencie nie widzieli 91%. Widzieli 74%. Statyczny próg mówi ci tylko, czy cały system spada w przepaść. Nie mówi ci jednak, czy jedna część twojego systemu umiera. Jeśli 96 segmentów działa poprawnie, a jeden ulega awarii, wysoka średnia ukryje ten błąd. Błąd znajdziesz w zgłoszeniach do supportu, zamiast w narzędziach do testowania.
Zmieniliśmy naszą strategię. Przestaliśmy opierać gating na liczbach bezwzględnych. Teraz porównujemy wyniki z ostatnim udanym przebiegiem.
Stosujemy dwie zasady. Obie muszą zostać spełnione:
- Żaden pojedynczy segment nie może spaść o więcej niż 3 punkty względem baseline.
- Całkowity agregat nie może spaść o więcej niż 1,5 punktu względem baseline.
W naszej ostatniej porażce segment zwrotów spadł o 24 punkty. Pierwsza zasada natychmiast by to wyłapała.
Uważaj na pułapki delta gatingu. Jeśli twój baseline aktualizuje się przy każdym przebiegu, możesz powoli dryfować w stronę porażki. Spadek o 0,5 punktu każdego dnia przejdzie każdy test. Powoli osuwasz się w stronę słabego produktu.
Wykonaj te kroki, aby naprawić swoje testowanie:
- Aktualizuj swój baseline tylko wtedy, gdy główna gałąź (main branch) jest zielona.
- Wymagaj zatwierdzenia przez człowieka każdego celowego spadku wyników.
- Twój baseline musi być zapisem tego, co działa, a nie tylko tego, co wydarzyło się ostatnio.
- Sprawdź wariancję swoich ostatnich 5 udanych (zielonych) przebiegów. Jeśli segment waha się bardziej niż twój próg, to twój próg jest jedynie szumem.
- Przetestuj swój najmniejszy segment. Sprawdź, jak bardzo może on spaść, zanim agregat to zauważy. Jeśli odpowiedzią jest duża liczba, twój agregat ukrywa błędy.
Optional learning community: https://t.me/GyaanSetuAi
