91% Pass Rate. Gate zielony. Wypuszczone. Najgorsza regresja w historii.

Osiągnęliśmy 91% pass rate w teście klasyfikacji intencji. Próg wynosił 90%. Przekroczyliśmy wymagany poziom. Wypuściliśmy kod.

To była nasza najgorsza regresja w tym kwartale.

Problemem była nasza matematyka. Nasz wynik ewaluacji utrzymywał się na poziomie 96% lub 97% przez wiele tygodni. Następnie jedna zmiana zepsuła konkretny segment: niejednoznaczne prośby o zwrot pieniędzy. Ten segment spadł z 98% do 74%.

Ten segment stanowi 4% naszego całkowitego ruchu. Ponieważ patrzyliśmy na średnią, całkowity wynik spadł tylko do 91%. Gate pozostał zielony.

Agregaty ukrywają błędy w szumie.

Użytkownicy w tym segmencie nie widzieli 91%. Widzieli 74%. Statyczny próg mówi ci tylko, czy cały system spada w przepaść. Nie mówi ci jednak, czy jedna część twojego systemu umiera. Jeśli 96 segmentów działa poprawnie, a jeden ulega awarii, wysoka średnia ukryje ten błąd. Błąd znajdziesz w zgłoszeniach do supportu, zamiast w narzędziach do testowania.

Zmieniliśmy naszą strategię. Przestaliśmy opierać gating na liczbach bezwzględnych. Teraz porównujemy wyniki z ostatnim udanym przebiegiem.

Stosujemy dwie zasady. Obie muszą zostać spełnione:

  • Żaden pojedynczy segment nie może spaść o więcej niż 3 punkty względem baseline.
  • Całkowity agregat nie może spaść o więcej niż 1,5 punktu względem baseline.

W naszej ostatniej porażce segment zwrotów spadł o 24 punkty. Pierwsza zasada natychmiast by to wyłapała.

Uważaj na pułapki delta gatingu. Jeśli twój baseline aktualizuje się przy każdym przebiegu, możesz powoli dryfować w stronę porażki. Spadek o 0,5 punktu każdego dnia przejdzie każdy test. Powoli osuwasz się w stronę słabego produktu.

Wykonaj te kroki, aby naprawić swoje testowanie:

  • Aktualizuj swój baseline tylko wtedy, gdy główna gałąź (main branch) jest zielona.
  • Wymagaj zatwierdzenia przez człowieka każdego celowego spadku wyników.
  • Twój baseline musi być zapisem tego, co działa, a nie tylko tego, co wydarzyło się ostatnio.
  • Sprawdź wariancję swoich ostatnich 5 udanych (zielonych) przebiegów. Jeśli segment waha się bardziej niż twój próg, to twój próg jest jedynie szumem.
  • Przetestuj swój najmniejszy segment. Sprawdź, jak bardzo może on spaść, zanim agregat to zauważy. Jeśli odpowiedzią jest duża liczba, twój agregat ukrywa błędy.

Source: https://dev.to/ethanwritesai/91-pass-rate-gate-green-shipped-worst-regression-we-had-all-quarter-4dfn

Optional learning community: https://t.me/GyaanSetuAi