Taxa de Aprovação de 91%. Gate Verde. Enviado. A Pior Regressão de Sempre.
Alcançamos uma taxa de aprovação de 91% em um teste de classificação de intenção. O limite era de 90%. Superamos a meta. Enviamos o código.
Foi a nossa pior regressão do trimestre.
O problema foi a nossa matemática. Nossa pontuação de avaliação permaneceu em 96% ou 97% por semanas. Então, uma mudança quebrou um segmento específico: solicitações de reembolso ambíguas. Esse segmento caiu de 98% para 74%.
Esse segmento representa 4% do nosso tráfego total. Como olhamos para a média, a pontuação total caiu apenas para 91%. O gate permaneceu verde.
Agregados escondem falhas dentro do ruído.
Os usuários desse segmento não viram 91%. Eles viram 74%. Um limite estático diz se o sistema inteiro cai de um precipício. Ele não diz se uma parte do seu sistema está morrendo. Se 96 segmentos estão bem e um falha, uma média alta esconde a falha. Você descobre o erro por meio de tickets de suporte em vez de suas ferramentas de teste.
Mudamos nossa estratégia. Paramos de usar limites baseados em números absolutos. Agora, validamos em relação à última execução bem-sucedida.
Usamos duas regras. Ambas devem passar:
- Nenhum segmento individual pode cair mais de 3 pontos em relação à linha de base.
- O agregado total não pode cair mais de 1,5 ponto em relação à linha de base.
Em nossa falha recente, o segmento de reembolsos caiu 24 pontos. A primeira regra teria detectado isso imediatamente.
Cuidado com as armadilhas de gating por delta. Se a sua linha de base é atualizada em cada execução, você pode derivar para o fracasso. Uma queda de 0,5 ponto por dia passa em todos os testes. Você desliza lentamente para um produto ruim.
Siga estes passos para corrigir seus testes:
- Atualize sua linha de base apenas quando sua branch principal estiver verde.
- Exija que um humano aprove qualquer queda intencional nas pontuações.
- Sua linha de base deve ser um registro do que funciona, não apenas do que aconteceu por último.
- Verifique a variância das suas últimas 5 execuções verdes. Se um segmento oscilar mais do que o seu limite, seu limite é ruído.
- Teste seu menor segmento. Pergunte o quanto ele pode cair antes que o agregado perceba. Se a resposta for um número grande, seu agregado está escondendo erros.
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
