Procurando um Gato Preto em um Quarto Escuro de 2000 Dimensões

Translated for your language. Ler o original.

AI-assisted draft.

GyaanSetu Editorialhá 2 semanas2min de leitura

Procurando um Gato Preto em um Quarto Escuro de 2000 Dimensões

Procurando um Gato Preto em uma Sala Escura de 2000 Dimensões

Eu realizei um teste de estresse para algoritmos de machine learning.

A maioria dos benchmarks é entediante. Eles usam conjuntos de dados simples como MNIST ou Titanic. Eu queria levar os modelos ao seu limite.

Coloquei 21 algoritmos para competir entre si. Isso incluiu:

Modelos tradicionais: Linear Regression, k-NN, SVR.
Ensembles de árvores: Random Forest, ExtraTrees.
Pesos-pesados de boosting: XGBoost, LightGBM, CatBoost, HistGradientBoosting.
Redes Neurais: Multi-layer perceptrons e TabNet.
O azarão: Polyharmonic Cascade.

A tarefa parecia simples. Pedi aos modelos que aprendessem uma superfície 3D complexa. Mas então adicionei dois obstáculos massivos:

Ruído de Dimensionalidade: Eu dei a eles 2.000 características (features). Apenas duas eram reais. As outras 1.998 eram puro ruído. Isso simula dados do mundo real, como genômica ou leituras de sensores.
Rotação de Coordenadas: Eu rotacionei todo o espaço de características. Isso significa que o sinal útil não estava mais alinhado com nenhuma coluna individual. Ele estava espalhado por todas as 2.000 dimensões.

Os resultados foram chocantes.

Modelos baseados em árvores como XGBoost e LightGBM são os reis dos dados tabulares. Eles vencem quando os dados estão alinhados com as colunas. Mas quando rotacionei o espaço, eles colapsaram. Eles não conseguiram encontrar o sinal no ruído.

As redes neurais sobreviveram à rotação, mas tiveram dificuldades com a alta dimensionalidade. Elas se tornaram lentas e perderam precisão à medida que o ruído aumentava.

Então, houve o Polyharmonic Cascade.

Este modelo não utiliza o gradiente descendente padrão. Ele utiliza matemática pura baseada na teoria de funções aleatórias. Enquanto os pesos-pesados falharam, o Cascade prosperou. Ele lidou com a rotação e as 2.000 características com facilidade. Ele superou quase todos os outros participantes nas rodadas mais difíceis.

A lição é clara: O ML tabular moderno é frequentemente dependente de eixos. Ele funciona muito bem até que a geometria dos seus dados mude. Se você trabalha com dados complexos, rotacionados ou altamente ruidosos, suas ferramentas padrão podem falhar.

Você pode encontrar o código completo e os resultados no GitHub. Convido você a replicar este experimento.

Fonte: https://dev.to/xolod7/searching-for-a-black-cat-in-a-2000-dimensional-dark-room-a-machine-learning-algorithm-tournament-n6n

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

Procurando um Gato Preto em um Quarto Escuro de 2000 Dimensões

Continuar lendo

Da Matéria Escura à Guerra de IA: As Fronteiras em Mutação da Tecnologia

O Big Bang do Deep Learning