Buscando un gato negro en una habitación oscura de 2000 dimensiones

Realicé una prueba de estrés para algoritmos de aprendizaje automático.

La mayoría de los benchmarks son aburridos. Utilizan conjuntos de datos sencillos como MNIST o Titanic. Yo quería llevar los modelos al límite.

Enfrenté a 21 algoritmos entre sí. Estos incluían:

  • Modelos tradicionales: Linear Regression, k-NN, SVR.
  • Ensembles de árboles: Random Forest, ExtraTrees.
  • Pesos pesados del boosting: XGBoost, LightGBM, CatBoost, HistGradientBoosting.
  • Redes neuronales: Multi-layer perceptrons y TabNet.
  • El menos favorecido: Polyharmonic Cascade.

La tarea parecía sencilla. Pedí a los modelos que aprendieran una superficie 3D compleja. Pero luego añadí dos obstáculos masivos:

  1. Ruido de dimensionalidad: Les di 2.000 características. Solo dos eran reales. Las otras 1.998 eran puro ruido. Esto imita datos del mundo real como la genómica o las lecturas de sensores.

  2. Rotación de coordenadas: Roté todo el espacio de características. Esto significa que la señal útil ya no estaba alineada con ninguna columna individual. Estaba dispersa a través de las 2.000 dimensiones.

Los resultados fueron impactantes.

Los modelos basados en árboles como XGBoost y LightGBM son los reyes de los datos tabulares. Ganan cuando los datos se alinean con las columnas. Pero cuando roté el espacio, colapsaron. No pudieron encontrar la señal entre el ruido.

Las redes neuronales sobrevivieron a la rotación, pero tuvieron dificultades con la alta dimensionalidad. Se volvieron lentas y perdieron precisión a medida que aumentaba el ruido.

Luego estaba el Polyharmonic Cascade.

Este modelo no utiliza el descenso de gradiente estándar. Utiliza matemáticas puras basadas en la teoría de funciones aleatorias. Mientras que los pesos pesados fallaron, el Cascade prosperó. Manejó la rotación y las 2.000 características con facilidad. Superó a casi todos los demás participantes en las rondas más difíciles.

La lección es clara: El ML tabular moderno suele depender de los ejes. Funciona de maravilla hasta que la geometría de tus datos cambia. Si trabajas con datos complejos, rotados o con mucho ruido, tus herramientas estándar podrían fallarte.

Puedes encontrar el código completo y los resultados en GitHub. Te invito a replicar este experimento.

Fuente: https://dev.to/xolod7/searching-for-a-black-cat-in-a-2000-dimensional-dark-room-a-machine-learning-algorithm-tournament-n6n

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi