البحث عن قط أسود في غرفة مظلمة ذات 2000 بُعد
أجريت اختبار جهد لخوارزميات تعلم الآلة.
معظم اختبارات القياس مملة؛ فهي تستخدم مجموعات بيانات بسيطة مثل MNIST أو Titanic. أردت دفع النماذج إلى أقصى حدود طاقتها.
وضعت 21 خوارزمية في مواجهة بعضها البعض، وشمل ذلك:
- النماذج التقليدية: Linear Regression، وk-NN، وSVR.
- مجموعات الأشجار (Tree ensembles): Random Forest، وExtraTrees.
- عمالقة التعزيز (Boosting heavyweights): XGBoost، وLightGBM، وCatBoost، وHistGradientBoosting.
- الشبكات العصبية: Multi-layer perceptrons وTabNet.
- الحصان الأسود (The underdog): Polyharmonic Cascade.
بدت المهمة بسيطة؛ حيث طلبت من النماذج تعلم سطح ثلاثي الأبعاد معقد. ولكن بعد ذلك أضفت عقبتين هائلتين:
ضجيج الأبعاد (Dimensionality Noise): أعطيتهم 2,000 ميزة (features). اثنتان منها فقط حقيقيتان، بينما كانت الـ 1,998 الأخرى مجرد ضجيج خالص. هذا يحاكي بيانات العالم الحقيقي مثل علم الجينوم أو قراءات المستشعرات.
تدوير الإحداثيات (Coordinate Rotation): قمت بتدوير فضاء الميزات بالكامل. وهذا يعني أن الإشارة المفيدة لم تعد محاذية لأي عمود بمفرده، بل تشتتت عبر جميع الأبعاد الـ 2,000.
كانت النتائج صادمة.
النماذج القائمة على الأشجار مثل XGBoost وLightGBM هي ملوك البيانات الجدولية (tabular data). فهي تفوز عندما تكون البيانات محاذية للأعمدة، ولكن عندما قمت بتدوير الفضاء، انهارت؛ إذ لم تتمكن من العثور على الإشارة وسط الضجيج.
صمدت الشبكات العصبية أمام التدوير، لكنها عانت من الأبعاد العالية، حيث أصبحت بطيئة وفقدت دقتها مع زيادة الضجيج.
ثم كان هناك Polyharmonic Cascade.
لا يستخدم هذا النموذج طريقة gradient descent التقليدية، بل يستخدم رياضيات بحتة تعتمد على نظرية الدوال العشوائية (random function theory). وبينما فشل العمالقة، ازدهر نموذج Cascade؛ فقد تعامل مع التدوير والميزات الـ 2,000 بكل سهولة، وتفوق على جميع المشاركين الآخرين تقريبًا في أصعب الجولات.
الدرس واضح: تعلم الآلة للبيانات الجدولية الحديثة غالبًا ما يعتمد على المحاور (axis-dependent). فهو يعمل بشكل رائع حتى تتغير هندسة بياناتك. إذا كنت تعمل مع بيانات معقدة أو مدورة أو مليئة بالضجيج، فقد تخذلك أدواتك القياسية.
يمكنك العثور على الكود الكامل والنتائج على GitHub. أدعوكم لإعادة إجراء هذه التجربة.
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi
