2000 பரிமாணங்களைக் கொண்ட இருண்ட அறையில் ஒரு கருப்புப் பூனையைத் தேடுதல்

நான் இயந்திரக் கற்றல் (machine learning) வழிமுறைகளுக்கான ஒரு அழுத்தச் சோதனையை (stress test) மேற்கொண்டேன்.

பெரும்பாலான பெஞ்ச்மார்க் (benchmarks) சோதனைகள் சலிப்பூட்டுபவையாக உள்ளன. அவை MNIST அல்லது Titanic போன்ற எளிய தரவுத்தொகுப்புகளைப் (datasets) பயன்படுத்துகின்றன. நான் மாதிரிகளை (models) அவற்றின் எல்லை வரை கொண்டு செல்ல விரும்பினேன்.

நான் 21 வழிமுறைகளை ஒன்றுடன் ஒன்று போட்டியிட வைத்தேன். இதில் அடங்குவன:

  • பாரம்பரிய மாதிரிகள்: Linear Regression, k-NN, SVR.
  • Tree ensembles: Random Forest, ExtraTrees.
  • Boosting heavyweights: XGBoost, LightGBM, CatBoost, HistGradientBoosting.
  • Neural Networks: Multi-layer perceptrons மற்றும் TabNet.
  • எதிர்பாராத வெற்றியாளர் (The underdog): Polyharmonic Cascade.

அந்தப் பணி எளிமையாகத் தோன்றியது. ஒரு சிக்கலான 3D மேற்பரப்பைக் (surface) கற்றுக்கொள்ளுமாறு நான் மாதிரிகளிடம் கேட்டேன். ஆனால், பிறகு நான் இரண்டு மிகப்பெரிய தடைகளைச் சேர்த்தேன்:

  1. பரிமாண இரைச்சல் (Dimensionality Noise): நான் அவற்றுக்கு 2,000 அம்சங்களை (features) வழங்கினேன். அவற்றில் இரண்டு மட்டுமே உண்மையானவை. மற்ற 1,998 வெறும் இரைச்சல் (noise) மட்டுமே. இது மரபணுவியல் (genomics) அல்லது சென்சார் அளவீடுகள் போன்ற நிஜ உலகத் தரவுகளைப் பிரதிபலிக்கிறது.

  2. ஆயத்தொலைவு சுழற்சி (Coordinate Rotation): நான் முழு அம்ச வெளியையும் (feature space) சுழலச் செய்தேன். இதன் பொருள், பயனுள்ள சிக்னல் (signal) இனி எந்த ஒரு தனிப்பட்ட நெடுவரிசையுடனும் (column) சீரமைக்கப்படவில்லை என்பதாகும். அது அனைத்து 2,000 பரிமாணங்களிலும் பரவி இருந்தது.

முடிவுகள் அதிர்ச்சியளிப்பதாக இருந்தன.

XGBoost மற்றும் LightGBM போன்ற Tree-அடிப்படையிலான மாதிரிகள் அட்டவணைத் தரவுகளின் (tabular data) மன்னர்கள். தரவு நெடுவரிசைகளுடன் சீராக இருக்கும்போது அவை வெற்றி பெறுகின்றன. ஆனால் நான் வெளியைச் சுழலச் செய்தபோது, அவை தோல்வியடைந்தன. இரைச்சலுக்குள் இருந்த சிக்னலைக் கண்டறிய அவற்றால் முடியவில்லை.

Neural networks அந்தச் சுழற்சியைத் தாங்கிக்கொண்டன, ஆனால் அதிகப்படியான பரிமாணங்களால் அவை சிரமப்பட்டன. இரைச்சல் அதிகரித்தபோது அவை மெதுவாவதோடு துல்லியத்தையும் (accuracy) இழந்தன.

பிறகு Polyharmonic Cascade இருந்தது.

இந்த மாதிரி வழக்கமான gradient descent முறையைப் பயன்படுத்துவதில்லை. இது random function theory அடிப்படையிலான தூய கணிதத்தைப் பயன்படுத்துகிறது. மற்ற வலிமையான மாதிரிகள் தோல்வியடைந்த நிலையில், Cascade சிறப்பாகச் செயல்பட்டது. அது சுழற்சியையும் 2,000 அம்சங்களையும் எளிதாகக் கையாண்டது. கடினமான சுற்றுகளில் மற்ற அனைத்துப் போட்டியாளர்களையும் விட இது சிறப்பாகச் செயல்பட்டது.

பாடம் தெளிவானது: நவீன அட்டவணை ML பெரும்பாலும் அச்சுகளைச் (axis) சார்ந்தே உள்ளது. உங்கள் தரவின் வடிவியல் (geometry) மாறும் வரை அது சிறப்பாகச் செயல்படும். நீங்கள் சிக்கலான, சுழலப்பட்ட அல்லது அதிக இரைச்சல் கொண்ட தரவுகளுடன் பணிபுரிந்தால், உங்கள் வழக்கமான கருவிகள் உங்களுக்குத் தோல்வியளிக்கலாம்.

முழுமையான குறியீடு (code) மற்றும் முடிவுகளை நீங்கள் GitHub-இல் காணலாம். இந்தச் சோதனையை மீண்டும் செய்து பார்க்குமாறு உங்களை அழைக்கிறேன்.

மூலம்: https://dev.to/xolod7/searching-for-a-black-cat-in-a-2000-dimensional-dark-room-a-machine-learning-algorithm-tournament-n6n

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi