جستجوی یک گربه سیاه در یک اتاق تاریک ۲۰۰۰-بعدی

من یک تست استرس برای الگوریتم‌های یادگیری ماشین اجرا کردم.

بیشتر بنچمارک‌ها خسته‌کننده هستند. آن‌ها از مجموعه‌داده‌های ساده‌ای مثل MNIST یا Titanic استفاده می‌کنند. من می‌خواستم مدل‌ها را تا مرز فروپاشی به چالش بکشم.

من ۲۱ الگوریتم را در مقابل یکدیگر قرار دادم. این‌ها شامل موارد زیر بودند:

  • مدل‌های سنتی: Linear Regression، k-NN، SVR.
  • مجموعه‌های درختی: Random Forest، ExtraTrees.
  • غول‌های Boosting: XGBoost، LightGBM، CatBoost، HistGradientBoosting.
  • شبکه‌های عصبی: Multi-layer perceptrons و TabNet.
  • گزینه‌ی کمتر شناخته‌شده: Polyharmonic Cascade.

وظیفه ساده به نظر می‌رسید. از مدل‌ها خواستم یک سطح سه‌بعدی پیچیده را یاد بگیرند. اما سپس دو مانع بزرگ اضافه کردم:

۱. نویز ابعادی: من ۲۰۰۰ ویژگی به آن‌ها دادم. تنها دو مورد واقعی بودند. ۱۹۹۸ مورد دیگر صرفاً نویز بودند. این کار داده‌های دنیای واقعی مانند ژنومیک یا خوانش‌های حسگر را شبیه‌سازی می‌کند.

۲. چرخش مختصات: من کل فضای ویژگی را چرخاندم. این یعنی سیگنال مفید دیگر با هیچ ستون واحدی هم‌راستا نبود، بلکه در تمام ۲۰۰۰ بعد پخش شده بود.

نتایج شوکه‌کننده بود.

مدل‌های مبتنی بر درخت مانند XGBoost و LightGBM پادشاهان داده‌های جدولی هستند. آن‌ها زمانی پیروز می‌شوند که داده‌ها با ستون‌ها هم‌راستا باشند. اما وقتی فضا را چرخاندم، آن‌ها فروپاشیدند. آن‌ها نتوانستند سیگنال را در میان نویز پیدا کنند.

شبکه‌های عصبی از چرخش جان سالم به در بردند، اما با ابعاد بالا دست و پنجه نرم کردند. با افزایش نویز، آن‌ها کند شدند و دقت خود را از دست دادند.

و سپس نوبت به Polyharmonic Cascade رسید.

این مدل از روش استاندارد gradient descent استفاده نمی‌کند. بلکه از ریاضیات محض بر پایه نظریه تابع تصادفی استفاده می‌کند. در حالی که غول‌ها شکست خوردند، Cascade شکوفا شد. این مدل چرخش و ۲۰۰۰ ویژگی را به راحتی مدیریت کرد و در سخت‌ترین مراحل، تقریباً از تمام شرکت‌کنندگان دیگر بهتر عمل کرد.

درس واضح است: یادگیری ماشین جدولی مدرن اغلب به محورها وابسته است. این روش تا زمانی که هندسه داده‌های شما تغییر نکند، عالی عمل می‌کند. اگر با داده‌های پیچیده، چرخیده یا بسیار نویزی کار می‌کنید، ابزارهای استاندارد شما ممکن است ناامیدتان کنند.

می‌توانید کد کامل و نتایج را در GitHub پیدا کنید. از شما دعوت می‌کنم این آزمایش را بازسازی کنید.

منبع: https://dev.to/xolod7/searching-for-a-black-cat-in-a-2000-dimensional-dark-room-a-machine-learning-algorithm-tournament-n6n

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi