Searching for a Black Cat in a 2000-Dimensional Dark Room

Makine öğrenmesi algoritmaları için bir stres testi gerçekleştirdim.

Çoğu kıyaslama (benchmark) sıkıcıdır. MNIST veya Titanic gibi basit veri setlerini kullanırlar. Ben modelleri kırılma noktalarına kadar zorlamak istedim.

21 algoritmayı birbirine karşı yarıştırttım. Bunlar şunları içeriyordu:

  • Geleneksel modeller: Linear Regression, k-NN, SVR.
  • Ağaç toplulukları (Tree ensembles): Random Forest, ExtraTrees.
  • Boosting ağır topları: XGBoost, LightGBM, CatBoost, HistGradientBoosting.
  • Sinir Ağları: Multi-layer perceptrons ve TabNet.
  • Sürpriz aday: Polyharmonic Cascade.

Görev basit görünüyordu. Modellerden karmaşık bir 3D yüzeyi öğrenmelerini istedim. Ancak ardından iki büyük engel ekledim:

  1. Boyutsal Gürültü: Onlara 2.000 özellik (feature) verdim. Bunlardan sadece ikisi gerçekti. Diğer 1.998 tanesi tamamen gürültüden ibaretti. Bu durum, genomik veya sensör okumaları gibi gerçek dünya verilerini taklit eder.

  2. Koordinat Rotasyonu: Tüm özellik uzayını döndürdüm. Bu, yararlı sinyalin artık tek bir sütunla hizalı olmadığı anlamına geliyordu. Sinyal, 2.000 boyutun tamamına yayılmıştı.

Sonuçlar şok ediciydi.

XGBoost ve LightGBM gibi ağaç tabanlı modeller, tablo verilerinin krallarıdır. Veriler sütunlarla hizalı olduğunda kazanırlar. Ancak uzayı döndürdüğümde çöktüler. Gürültü içindeki sinyali bulamadılar.

Sinir ağları rotasyondan sağ çıktı ancak yüksek boyutlulukla mücadele etmek zorunda kaldı. Gürültü arttıkça yavaşladılar ve doğruluklarını kaybettiler.

Sonra Polyharmonic Cascade vardı.

Bu model standart gradyan inişi (gradient descent) kullanmaz. Rastgele fonksiyon teorisine dayanan saf matematik kullanır. Ağır toplar başarısız olurken, Cascade parladı. Rotasyonu ve 2.000 özelliği kolaylıkla yönetti. En zor turlarda diğer hemen hemen tüm katılımcılardan daha iyi performans gösterdi.

Ders net: Modern tablo tabanlı ML genellikle eksen bağımlıdır. Veri geometriniz değişene kadar harika çalışır. Eğer karmaşık, döndürülmüş veya yüksek derecede gürültülü verilerle çalışıyorsanız, standart araçlarınız sizi yarı yolda bırakabilir.

Kodun tamamını ve sonuçları GitHub'da bulabilirsiniz. Sizi bu deneyi tekrarlamaya davet ediyorum.

Kaynak: https://dev.to/xolod7/searching-for-a-black-cat-in-a-2000-dimensional-dark-room-a-machine-learning-algorithm-tournament-n6n

İsteğe bağlı öğrenme topluluğu: https://t.me/GyaanSetuAi