Die Suche nach einer schwarzen Katze in einem 2000-dimensionalen dunklen Raum
Ich habe einen Stresstest für Machine-Learning-Algorithmen durchgeführt.
Die meisten Benchmarks sind langweilig. Sie verwenden einfache Datensätze wie MNIST oder Titanic. Ich wollte die Modelle an ihre Belastungsgrenze bringen.
Ich habe 21 Algorithmen gegeneinander antreten lassen. Dazu gehörten:
- Traditionelle Modelle: Lineare Regression, k-NN, SVR.
- Baum-Ensembles: Random Forest, ExtraTrees.
- Boosting-Schwergewichte: XGBoost, LightGBM, CatBoost, HistGradientBoosting.
- Neuronale Netze: Multi-Layer-Perzeptrone und TabNet.
- Der Underdog: Polyharmonic Cascade.
Die Aufgabe sah einfach aus. Ich bat die Modelle, eine komplexe 3D-Oberfläche zu erlernen. Aber dann fügte ich zwei massive Hürden hinzu:
Dimensionalitätsrauschen: Ich gab ihnen 2.000 Merkmale. Nur zwei davon waren echt. Die anderen 1.998 waren reines Rauschen. Dies ahmt reale Daten wie Genomik oder Sensormesswerte nach.
Koordinatenrotation: Ich habe den gesamten Merkmalsraum rotiert. Das bedeutet, dass das nützliche Signal nicht mehr an einer einzelnen Spalte ausgerichtet war. Es war über alle 2.000 Dimensionen verteilt.
Die Ergebnisse waren schockierend.
Baumbasierte Modelle wie XGBoost und LightGBM sind die Könige der tabellarischen Daten. Sie gewinnen, wenn die Daten an den Spalten ausgerichtet sind. Aber als ich den Raum rotierte, brachen sie zusammen. Sie konnten das Signal im Rauschen nicht finden.
Neuronale Netze überstanden die Rotation, hatten aber mit der hohen Dimensionalität zu kämpfen. Sie wurden langsamer und verloren an Genauigkeit, während das Rauschen zunahm.
Und dann war da die Polyharmonic Cascade.
Dieses Modell verwendet keinen Standard-Gradientenabstieg. Es nutzt reine Mathematik basierend auf der Theorie zufälliger Funktionen (Random Function Theory). Während die Schwergewichte scheiterten, florierte die Cascade. Sie bewältigte die Rotation und die 2.000 Merkmale mit Leichtigkeit. Sie übertraf fast alle anderen Teilnehmer in den schwierigsten Runden.
Die Lehre daraus ist klar: Modernes tabellarisches ML ist oft achsenabhängig. Es funktioniert hervorragend, bis sich die Geometrie Ihrer Daten ändert. Wenn Sie mit komplexen, rotierten oder stark verrauschten Daten arbeiten, könnten Ihre Standardwerkzeuge versagen.
Den vollständigen Code und die Ergebnisse finden Sie auf GitHub. Ich lade Sie ein, dieses Experiment zu replizieren.
Optionale Lern-Community: https://t.me/GyaanSetuAi
