𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

Translated for your language. Read the original.

AI-assisted draft.

dün1min read

Yapay Zeka Güven Skorlarınız Neden Yalan Söyler

Modelinizi eğittiniz. Metrikler harika görünüyordu. Yayına aldınız.

Altı ay sonra, bir şeyler ters gider. Doğruluk (accuracy) paneliniz iyi görünür ancak model başarısız oluyor.

Bu durum dağılım kayması (distribution shift) nedeniyle gerçekleşir. Canlı ortamdaki (production) veriler, eğitim verilerinizden farklıdır. Bu kayma kalibrasyonu bozar.

Eğer Mixture-of-Experts (MoE) mimarisi kullanıyorsanız, özel bir riskle karşı karşıyasınız demektir.

Kalibrasyon, bir modelin %80 güvenli olduğunu söylediğinde, zamanın %80'inde haklı olması anlamına gelir. Yumuşak yönlendirme (soft routing) kullanan MoE modellerinde bu durum sessizce bozulur.

Yumuşak yönlendirme, bir sonuç elde etmek için birden fazla uzmanı (expert) harmanlar. Her bir uzman kalibre edilmiş olsa bile, girdi verileri değiştiğinde birleşik skor güvenilmez hale gelir. Modelin eğitim sırasında görmediği farklı yönlendirme desenleri ortaya çıkar.

Sert yönlendirme (hard routing) daha dayanıklıdır. Girdiyi yalnızca tek bir uzmana gönderir. Güven skoru o spesifik uzmana bağlı kalır.

Bunu nasıl düzeltirsiniz:

Adversarial Reweighting Kullanın: Modelinizi zor örnekler üzerinde eğitin. Eğitim sırasında yüksek kayıplı (high-loss) örnekleri vurgulamak için üstel bir eğim (exponential tilt) kullanın.
Robust Filtered Loss Kullanın: Eğitimi, uzman harmanının tek bir uzmandan daha kötü performans gösterdiği durumlara odaklayın.

Şu an ne yapmalı:

Expected Calibration Error (ECE) Takibi Yapın: Güven skorlarınızın gerçek doğruluğunuzla eşleşip eşleşmediğini izleyin.
Güvenilirlik Diyagramları (Reliability Diagrams) Çizin: Köşegen çizgiden uzaklaşan eğrileri takip edin.
Girdi Kaymasını (Input Drift) Takip Edin: Canlı ortam verilerinizin değişip değişmediğini görmek için Kolmogorov-Smirnov gibi testler kullanın.
Temperature Scaling Kullanın: Bu, yayına alım sonrası güven skorlarını düzeltmek için hızlı bir yamadır, ancak kalıcı bir çözüm değildir.

Kalibrasyon bir sistem özelliğidir. Kalibre edilmiş parçalar her zaman kalibre edilmiş bir bütün oluşturmaz.

Canlı ortamda kalibrasyon kaymasıyla karşılaştınız mı? İzleme kurulumunuzu yorumlarda paylaşın.

Kaynak: https://dev.to/saeebarve/why-your-ai-models-confidence-score-is-probably-lying-and-what-to-do-about-it-1p1a

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗜 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗦𝗰𝗼𝗿𝗲𝘀 𝗟𝘆𝗲

Continue reading

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗜𝗻𝗳𝗹𝗮𝘁𝗲𝗱 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲: 𝗛𝗼𝘄 𝗔𝗜 𝗖𝗿𝗲𝗮𝘁𝗲𝘀 𝗙𝗮𝗹𝘀𝗲 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲

𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

𝗔𝗜 𝗧𝗲𝗰𝗵𝗻𝗼𝗹𝗼𝗴𝘆 𝗙𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻: 𝗖𝗹𝗼𝘀𝗲 𝘁𝗵𝗲 𝗔𝗜 𝗖𝗼𝗼𝗿𝗱𝗶𝗻𝗮𝘁𝗶𝗼𝗻 𝗚𝗮𝗽

𝗧𝗵𝗲 𝗧𝗲𝗹𝗹 𝗪𝗲 𝗧𝗿𝗮𝗶𝗻𝗲𝗱 𝗢𝘂𝘁