91% slagingspercentage. Gate groen. Shipped. De slechtste regressie ooit.
We behaalden een slagingspercentage van 91% op een intent-classificatietest. De drempelwaarde was 90%. We haalden de norm. We hebben de code live gezet.
Het was onze slechtste regressie van het kwartaal.
Het probleem zat in onze wiskunde. Onze evaluatiescore bleef wekenlang op 96% of 97% staan. Toen brak een wijziging één specifieke slice: ambigue restitutieverzoeken. Die slice zakte van 98% naar 74%.
Die slice vertegenwoordigt 4% van ons totale verkeer. Omdat we naar het gemiddelde keken, zakte de totale score slechts naar 91%. De gate bleef groen.
Aggregaten verbergen fouten in de ruis.
De gebruikers in die slice zagen geen 91%. Zij zagen 74%. Een statische drempelwaarde vertelt je of het hele systeem van een klif valt. Het vertelt je niet of een deel van je systeem aan het sterven is. Als 96 slices in orde zijn en één crasht, verbergt een hoog gemiddelde de crash. Je ontdekt de fout via supporttickets in plaats van via je testtools.
We hebben onze strategie gewijzigd. We zijn gestopt met het hanteren van absolute getallen als drempel
