Procurando um Gato Preto em uma Sala Escura de 2000 Dimensões
Eu realizei um teste de estresse para algoritmos de machine learning.
A maioria dos benchmarks é entediante. Eles usam conjuntos de dados simples como MNIST ou Titanic. Eu queria levar os modelos ao seu limite.
Coloquei 21 algoritmos para competir entre si. Isso incluiu:
- Modelos tradicionais: Linear Regression, k-NN, SVR.
- Ensembles de árvores: Random Forest, ExtraTrees.
- Pesos-pesados de boosting: XGBoost, LightGBM, CatBoost, HistGradientBoosting.
- Redes Neurais: Multi-layer perceptrons e TabNet.
- O azarão: Polyharmonic Cascade.
A tarefa parecia simples. Pedi aos modelos que aprendessem uma superfície 3D complexa. Mas então adicionei dois obstáculos massivos:
Ruído de Dimensionalidade: Eu dei a eles 2.000 características (features). Apenas duas eram reais. As outras 1.998 eram puro ruído. Isso simula dados do mundo real, como genômica ou leituras de sensores.
Rotação de Coordenadas: Eu rotacionei todo o espaço de características. Isso significa que o sinal útil não estava mais alinhado com nenhuma coluna individual. Ele estava espalhado por todas as 2.000 dimensões.
Os resultados foram chocantes.
Modelos baseados em árvores como XGBoost e LightGBM são os reis dos dados tabulares. Eles vencem quando os dados estão alinhados com as colunas. Mas quando rotacionei o espaço, eles colapsaram. Eles não conseguiram encontrar o sinal no ruído.
As redes neurais sobreviveram à rotação, mas tiveram dificuldades com a alta dimensionalidade. Elas se tornaram lentas e perderam precisão à medida que o ruído aumentava.
Então, houve o Polyharmonic Cascade.
Este modelo não utiliza o gradiente descendente padrão. Ele utiliza matemática pura baseada na teoria de funções aleatórias. Enquanto os pesos-pesados falharam, o Cascade prosperou. Ele lidou com a rotação e as 2.000 características com facilidade. Ele superou quase todos os outros participantes nas rodadas mais difíceis.
A lição é clara: O ML tabular moderno é frequentemente dependente de eixos. Ele funciona muito bem até que a geometria dos seus dados mude. Se você trabalha com dados complexos, rotacionados ou altamente ruidosos, suas ferramentas padrão podem falhar.
Você pode encontrar o código completo e os resultados no GitHub. Convido você a replicar este experimento.
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi
