Yapay Zeka Güven Skorlarınız Neden Yalan Söyler

Modelinizi eğittiniz. Metrikler harika görünüyordu. Yayına aldınız.

Altı ay sonra, bir şeyler ters gider. Doğruluk (accuracy) paneliniz iyi görünür ancak model başarısız oluyor.

Bu durum dağılım kayması (distribution shift) nedeniyle gerçekleşir. Canlı ortamdaki (production) veriler, eğitim verilerinizden farklıdır. Bu kayma kalibrasyonu bozar.

Eğer Mixture-of-Experts (MoE) mimarisi kullanıyorsanız, özel bir riskle karşı karşıyasınız demektir.

Kalibrasyon, bir modelin %80 güvenli olduğunu söylediğinde, zamanın %80'inde haklı olması anlamına gelir. Yumuşak yönlendirme (soft routing) kullanan MoE modellerinde bu durum sessizce bozulur.

Yumuşak yönlendirme, bir sonuç elde etmek için birden fazla uzmanı (expert) harmanlar. Her bir uzman kalibre edilmiş olsa bile, girdi verileri değiştiğinde birleşik skor güvenilmez hale gelir. Modelin eğitim sırasında görmediği farklı yönlendirme desenleri ortaya çıkar.

Sert yönlendirme (hard routing) daha dayanıklıdır. Girdiyi yalnızca tek bir uzmana gönderir. Güven skoru o spesifik uzmana bağlı kalır.

Bunu nasıl düzeltirsiniz:

  • Adversarial Reweighting Kullanın: Modelinizi zor örnekler üzerinde eğitin. Eğitim sırasında yüksek kayıplı (high-loss) örnekleri vurgulamak için üstel bir eğim (exponential tilt) kullanın.
  • Robust Filtered Loss Kullanın: Eğitimi, uzman harmanının tek bir uzmandan daha kötü performans gösterdiği durumlara odaklayın.

Şu an ne yapmalı:

  • Expected Calibration Error (ECE) Takibi Yapın: Güven skorlarınızın gerçek doğruluğunuzla eşleşip eşleşmediğini izleyin.
  • Güvenilirlik Diyagramları (Reliability Diagrams) Çizin: Köşegen çizgiden uzaklaşan eğrileri takip edin.
  • Girdi Kaymasını (Input Drift) Takip Edin: Canlı ortam verilerinizin değişip değişmediğini görmek için Kolmogorov-Smirnov gibi testler kullanın.
  • Temperature Scaling Kullanın: Bu, yayına alım sonrası güven skorlarını düzeltmek için hızlı bir yamadır, ancak kalıcı bir çözüm değildir.

Kalibrasyon bir sistem özelliğidir. Kalibre edilmiş parçalar her zaman kalibre edilmiş bir bütün oluşturmaz.

Canlı ortamda kalibrasyon kaymasıyla karşılaştınız mı? İzleme kurulumunuzu yorumlarda paylaşın.

Kaynak: https://dev.to/saeebarve/why-your-ai-models-confidence-score-is-probably-lying-and-what-to-do-about-it-1p1a

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi