Taxa de Aprovação de 91%. Gate Verde. Enviado. A Pior Regressão de Sempre.

Alcançamos uma taxa de aprovação de 91% em um teste de classificação de intenção. O limite era de 90%. Superamos a meta. Enviamos o código.

Foi a nossa pior regressão do trimestre.

O problema foi a nossa matemática. Nossa pontuação de avaliação permaneceu em 96% ou 97% por semanas. Então, uma mudança quebrou um segmento específico: solicitações de reembolso ambíguas. Esse segmento caiu de 98% para 74%.

Esse segmento representa 4% do nosso tráfego total. Como olhamos para a média, a pontuação total caiu apenas para 91%. O gate permaneceu verde.

Agregados escondem falhas dentro do ruído.

Os usuários desse segmento não viram 91%. Eles viram 74%. Um limite estático diz se o sistema inteiro cai de um precipício. Ele não diz se uma parte do seu sistema está morrendo. Se 96 segmentos estão bem e um falha, uma média alta esconde a falha. Você descobre o erro por meio de tickets de suporte em vez de suas ferramentas de teste.

Mudamos nossa estratégia. Paramos de usar limites baseados em números absolutos. Agora, validamos em relação à última execução bem-sucedida.

Usamos duas regras. Ambas devem passar:

  • Nenhum segmento individual pode cair mais de 3 pontos em relação à linha de base.
  • O agregado total não pode cair mais de 1,5 ponto em relação à linha de base.

Em nossa falha recente, o segmento de reembolsos caiu 24 pontos. A primeira regra teria detectado isso imediatamente.

Cuidado com as armadilhas de gating por delta. Se a sua linha de base é atualizada em cada execução, você pode derivar para o fracasso. Uma queda de 0,5 ponto por dia passa em todos os testes. Você desliza lentamente para um produto ruim.

Siga estes passos para corrigir seus testes:

  • Atualize sua linha de base apenas quando sua branch principal estiver verde.
  • Exija que um humano aprove qualquer queda intencional nas pontuações.
  • Sua linha de base deve ser um registro do que funciona, não apenas do que aconteceu por último.
  • Verifique a variância das suas últimas 5 execuções verdes. Se um segmento oscilar mais do que o seu limite, seu limite é ruído.
  • Teste seu menor segmento. Pergunte o quanto ele pode cair antes que o agregado perceba. Se a resposta for um número grande, seu agregado está escondendo erros.

Fonte: https://dev.to/ethanwritesai/91-pass-rate-gate-green-shipped-worst-regression-we-had-all-quarter-4dfn

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi