91 % Pass-Rate. Gate auf Grün. Release erfolgt. Die schlimmste Regression aller Zeiten.

Wir haben bei einem Test zur Intent-Klassifizierung eine Pass-Rate von 91 % erreicht. Die Schwelle lag bei 90 %. Wir haben die Hürde genommen. Wir haben den Code veröffentlicht.

Es war unsere schlimmste Regression in diesem Quartal.

Das Problem war unsere Mathematik. Unser Evaluierungswert lag wochenlang bei 96 % oder 97 %. Dann hat eine Änderung einen spezifischen Slice zerstört: mehrdeutige Rückerstattungsanfragen. Dieser Slice fiel von 98 % auf 74 %.

Dieser Slice macht 4 % unseres gesamten Traffics aus. Da wir nur auf den Durchschnitt geschaut haben, sank der Gesamtwert nur auf 91 %. Das Gate blieb auf Grün.

Aggregatwerte verbergen Fehler im Rauschen.

Die Nutzer in diesem Slice sahen nicht 91 %. Sie sahen 74 %. Ein statischer Schwellenwert sagt dir nur, ob das gesamte System in den Abgrund stürzt. Er sagt dir nicht, ob ein Teil deines Systems stirbt. Wenn 96 Slices in Ordnung sind und einer abstürzt, verbirgt ein hoher Durchschnitt den Absturz. Du findest den Fehler dann über Support-Tickets statt über deine Testing-Tools.

Wir haben unsere Strategie geändert. Wir haben aufgehört, nach absoluten Zahlen zu bewerten. Jetzt vergleichen wir den Wert mit dem letzten erfolgreichen Durchlauf.

Wir nutzen zwei Regeln. Beide müssen erfüllt sein:

  • Kein einzelner Slice darf im Vergleich zur Baseline um mehr als 3 Punkte fallen.
  • Der Gesamtwert darf im Vergleich zur Baseline um nicht mehr als 1,5 Punkte fallen.

Bei unserem jüngsten Fehler fiel der Refund-Slice um 24 Punkte. Regel eins hätte dies sofort erkannt.

Vorsicht vor Delta-Gating-Fallen. Wenn sich deine Baseline bei jedem einzelnen Durchlauf aktualisiert, kannst du schleichend in ein Scheitern driften. Ein Rückgang von 0,5 Punkten pro Tag besteht jeden Test. Du rutschst langsam in ein schlechtes Produkt ab.

Befolge diese Schritte, um dein Testing zu verbessern:

  • Aktualisiere deine Baseline nur, wenn dein Main-Branch auf Grün steht.
  • Verlange eine menschliche Freigabe für jeden beabsichtigten Rückgang der Scores.
  • Deine Baseline muss ein Protokoll dessen sein, was funktioniert, und nicht nur dessen, was zuletzt passiert ist.
  • Prüfe die Varianz deiner letzten 5 erfolgreichen Durchläufe. Wenn ein Slice stärker schwankt als dein Schwellenwert, dann ist dein Schwellenwert lediglich Rauschen.
  • Teste deinen kleinsten Slice. Frage dich, wie weit er fallen kann, bevor der Gesamtwert es bemerkt. Wenn die Antwort eine große Zahl ist, verbirgt dein Aggregat Fehler.

Quelle: https://dev.to/ethanwritesai/91-pass-rate-gate-green-shipped-worst-regression-we-had-all-quarter-4dfn

Optionale Lern-Community: https://t.me/GyaanSetuAi