Пошук чорного кота у 2000-вимірній темній кімнаті

Я провів стрес-тест для алгоритмів машинного навчання.

Більшість бенчмарків нудні. Вони використовують прості набори даних, такі як MNIST або Titanic. Я хотів довести моделі до межі їхніх можливостей.

Я зіставив 21 алгоритм один з одним. Сюди увійшли:

  • Традиційні моделі: Linear Regression, k-NN, SVR.
  • Дерев'яні ансамблі: Random Forest, ExtraTrees.
  • Важковаговики бустингу: XGBoost, LightGBM, CatBoost, HistGradientBoosting.
  • Нейронні мережі: багатошарові перцептрони та TabNet.
  • Аутсайдер: Polyharmonic Cascade.

Завдання здавалося простим. Я попросив моделі вивчити складну 3D-поверхню. Але потім я додав дві величезні перешкоди:

  1. Шум розмірності: Я надав їм 2000 ознак. Лише дві були справжніми. Інші 1998 були чистим шумом. Це імітує реальні дані, такі як геноміка або показники датчиків.

  2. Ротація координат: Я повернув увесь простір ознак. Це означає, що корисний сигнал більше не був узгоджений з жодним окремим стовпцем. Він був розмазаний по всіх 2000 вимірах.

Результати були шокуючими.

Моделі на основі дерев, такі як XGBoost та LightGBM, є королями табличних даних. Вони перемагають, коли дані узгоджені зі стовпцями. Але коли я повернув простір, вони зазнали краху. Вони не змогли знайти сигнал у шумі.

Нейронні мережі пережили ротацію, але їм було важко з високою розмірністю. Вони сповільнювалися і втрачали точність зі збільшенням шуму.

А потім був Polyharmonic Cascade.

Ця модель не використовує стандартний градієнтний спуск. Вона використовує чисту математику, засновану на теорії випадкових функцій. Поки важковаговики зазнавали невдачі, Cascade процвітав. Він легко впорався з ротацією та 2000 ознаками. Він перевершив майже всіх інших учасників у найскладніших раундах.

Урок зрозумілий: Сучасне табличне ML часто залежить від осей. Воно працює чудово, поки геометрія ваших даних не зміниться. Якщо ви працюєте зі складними, повернутими або дуже шумними даними, ваші стандартні інструменти можуть вас підвести.

Повний код і результати можна знайти на GitHub. Запрошую вас відтворити цей експеримент.

Source: https://dev.to/xolod7/searching-for-a-black-cat-in-a-2000-dimensional-dark-room-a-machine-learning-algorithm-tournament-n6n

Optional learning community: https://t.me/GyaanSetuAi