جستجوی یک گربه سیاه در یک اتاق تاریک ۲۰۰۰-بعدی
من یک تست استرس برای الگوریتمهای یادگیری ماشین اجرا کردم.
بیشتر بنچمارکها خستهکننده هستند. آنها از مجموعهدادههای سادهای مثل MNIST یا Titanic استفاده میکنند. من میخواستم مدلها را تا مرز فروپاشی به چالش بکشم.
من ۲۱ الگوریتم را در مقابل یکدیگر قرار دادم. اینها شامل موارد زیر بودند:
- مدلهای سنتی: Linear Regression، k-NN، SVR.
- مجموعههای درختی: Random Forest، ExtraTrees.
- غولهای Boosting: XGBoost، LightGBM، CatBoost، HistGradientBoosting.
- شبکههای عصبی: Multi-layer perceptrons و TabNet.
- گزینهی کمتر شناختهشده: Polyharmonic Cascade.
وظیفه ساده به نظر میرسید. از مدلها خواستم یک سطح سهبعدی پیچیده را یاد بگیرند. اما سپس دو مانع بزرگ اضافه کردم:
۱. نویز ابعادی: من ۲۰۰۰ ویژگی به آنها دادم. تنها دو مورد واقعی بودند. ۱۹۹۸ مورد دیگر صرفاً نویز بودند. این کار دادههای دنیای واقعی مانند ژنومیک یا خوانشهای حسگر را شبیهسازی میکند.
۲. چرخش مختصات: من کل فضای ویژگی را چرخاندم. این یعنی سیگنال مفید دیگر با هیچ ستون واحدی همراستا نبود، بلکه در تمام ۲۰۰۰ بعد پخش شده بود.
نتایج شوکهکننده بود.
مدلهای مبتنی بر درخت مانند XGBoost و LightGBM پادشاهان دادههای جدولی هستند. آنها زمانی پیروز میشوند که دادهها با ستونها همراستا باشند. اما وقتی فضا را چرخاندم، آنها فروپاشیدند. آنها نتوانستند سیگنال را در میان نویز پیدا کنند.
شبکههای عصبی از چرخش جان سالم به در بردند، اما با ابعاد بالا دست و پنجه نرم کردند. با افزایش نویز، آنها کند شدند و دقت خود را از دست دادند.
و سپس نوبت به Polyharmonic Cascade رسید.
این مدل از روش استاندارد gradient descent استفاده نمیکند. بلکه از ریاضیات محض بر پایه نظریه تابع تصادفی استفاده میکند. در حالی که غولها شکست خوردند، Cascade شکوفا شد. این مدل چرخش و ۲۰۰۰ ویژگی را به راحتی مدیریت کرد و در سختترین مراحل، تقریباً از تمام شرکتکنندگان دیگر بهتر عمل کرد.
درس واضح است: یادگیری ماشین جدولی مدرن اغلب به محورها وابسته است. این روش تا زمانی که هندسه دادههای شما تغییر نکند، عالی عمل میکند. اگر با دادههای پیچیده، چرخیده یا بسیار نویزی کار میکنید، ابزارهای استاندارد شما ممکن است ناامیدتان کنند.
میتوانید کد کامل و نتایج را در GitHub پیدا کنید. از شما دعوت میکنم این آزمایش را بازسازی کنید.
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi
