%91 Geçme Oranı. Gate Yeşil. Yayına Alındı. Gelmiş Geçmiş En Kötü Regresyon.

Bir niyet sınıflandırma (intent-classification) testinde %91 geçme oranına ulaştık. Eşik değer %90'dı. Barajı geçtik. Kodu yayına aldık.

Bu, çeyreğimizin en kötü regresyonuydu.

Sorun matematiğimizdeydi. Değerlendirme puanımız haftalarca %96 veya %97 seviyelerinde kaldı. Sonra, bir değişiklik belirli bir dilimi (slice) bozdu: belirsiz iade talepleri. O dilim %98'den %74'e düştü.

Bu dilim, toplam trafiğimizin %4'ünü temsil ediyor. Ortalamaya baktığımız için toplam puan sadece %91'e düştü. Gate yeşil kaldı.

Agregatlar, hataları gürültünün içinde gizler.

O dilimdeki kullanıcılar %91 görmedi. %74 gördüler. Statik bir eşik değeri, size tüm sistemin uçurumdan aşağı yuvarlanıp yuvarlanmadığını söyler. Sistemin bir parçasının ölmekte olup olmadığını söylemez. Eğer 96 dilim iyiyse ve biri çökerse, yüksek ortalama çöküşü gizler. Hatayı test araçlarınız yerine destek talepleri (support tickets) aracılığıyla bulursunuz.

Stratejimizi değiştirdik. Mutlak sayılara göre eşik koymayı bıraktık. Artık son başarılı çalışmaya (run) göre eşik koyuyoruz.

İki kural kullanıyoruz. Her ikisinin de geçmesi gerekiyor:

  • Tek bir dilim, baz çizgiye (baseline) kıyasla 3 puandan fazla düşmemeli.
  • Toplam agregat, baz çizgiye kıyasla 1,5 puandan fazla düşmemeli.

Son başarısızlığımızda, iade dilimi 24 puan düştü. Birinci kural bunu anında yakalardı.

Delta gating tuzaklarına dikkat edin. Eğer baz çizginiz her çalışmada güncelleniyorsa, başarısızlığa doğru sürüklenebilirsiniz. Her gün yaşanan 0,5 puanlık bir düşüş her testi geçer. Yavaş yavaş kötü bir ürüne dönüşürsünüz.

Testlerinizi düzeltmek için şu adımları izleyin:

  • Baz çizginizi yalnızca ana dalınız (main branch) yeşil olduğunda güncelleyin.
  • Puanlardaki her türlü kasıtlı düşüş için bir insanın onayını şart koşun.
  • Baz çizginiz sadece son ne olduğu değil, nelerin çalıştığının bir kaydı olmalıdır.
  • Son 5 yeşil çalışmanızın varyansını kontrol edin. Eğer bir dilim eşik değerinizden daha fazla dalgalanıyorsa, eşik değeriniz gürültüdür.
  • En küçük diliminizi test edin. Agregat fark etmeden o dilim ne kadar düşebilir? Eğer cevap büyük bir sayıysa, agregatınız hataları gizliyor demektir.

Kaynak: https://dev.to/ethanwritesai/91-pass-rate-gate-green-shipped-worst-regression-we-had-all-quarter-4dfn

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi