2000 பரிமாணங்களைக் கொண்ட இருண்ட அறையில் ஒரு கருப்புப் பூனையைத் தேடுதல்

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 வாரங்களுக்கு முன்2min read

2000 பரிமாணங்களைக் கொண்ட இருண்ட அறையில் ஒரு கருப்புப் பூனையைத் தேடுதல்

நான் இயந்திரக் கற்றல் (machine learning) வழிமுறைகளுக்கான ஒரு அழுத்தச் சோதனையை (stress test) மேற்கொண்டேன்.

பெரும்பாலான பெஞ்ச்மார்க் (benchmarks) சோதனைகள் சலிப்பூட்டுபவையாக உள்ளன. அவை MNIST அல்லது Titanic போன்ற எளிய தரவுத்தொகுப்புகளைப் (datasets) பயன்படுத்துகின்றன. நான் மாதிரிகளை (models) அவற்றின் எல்லை வரை கொண்டு செல்ல விரும்பினேன்.

நான் 21 வழிமுறைகளை ஒன்றுடன் ஒன்று போட்டியிட வைத்தேன். இதில் அடங்குவன:

பாரம்பரிய மாதிரிகள்: Linear Regression, k-NN, SVR.
Tree ensembles: Random Forest, ExtraTrees.
Boosting heavyweights: XGBoost, LightGBM, CatBoost, HistGradientBoosting.
Neural Networks: Multi-layer perceptrons மற்றும் TabNet.
எதிர்பாராத வெற்றியாளர் (The underdog): Polyharmonic Cascade.

அந்தப் பணி எளிமையாகத் தோன்றியது. ஒரு சிக்கலான 3D மேற்பரப்பைக் (surface) கற்றுக்கொள்ளுமாறு நான் மாதிரிகளிடம் கேட்டேன். ஆனால், பிறகு நான் இரண்டு மிகப்பெரிய தடைகளைச் சேர்த்தேன்:

பரிமாண இரைச்சல் (Dimensionality Noise): நான் அவற்றுக்கு 2,000 அம்சங்களை (features) வழங்கினேன். அவற்றில் இரண்டு மட்டுமே உண்மையானவை. மற்ற 1,998 வெறும் இரைச்சல் (noise) மட்டுமே. இது மரபணுவியல் (genomics) அல்லது சென்சார் அளவீடுகள் போன்ற நிஜ உலகத் தரவுகளைப் பிரதிபலிக்கிறது.
ஆயத்தொலைவு சுழற்சி (Coordinate Rotation): நான் முழு அம்ச வெளியையும் (feature space) சுழலச் செய்தேன். இதன் பொருள், பயனுள்ள சிக்னல் (signal) இனி எந்த ஒரு தனிப்பட்ட நெடுவரிசையுடனும் (column) சீரமைக்கப்படவில்லை என்பதாகும். அது அனைத்து 2,000 பரிமாணங்களிலும் பரவி இருந்தது.

முடிவுகள் அதிர்ச்சியளிப்பதாக இருந்தன.

XGBoost மற்றும் LightGBM போன்ற Tree-அடிப்படையிலான மாதிரிகள் அட்டவணைத் தரவுகளின் (tabular data) மன்னர்கள். தரவு நெடுவரிசைகளுடன் சீராக இருக்கும்போது அவை வெற்றி பெறுகின்றன. ஆனால் நான் வெளியைச் சுழலச் செய்தபோது, அவை தோல்வியடைந்தன. இரைச்சலுக்குள் இருந்த சிக்னலைக் கண்டறிய அவற்றால் முடியவில்லை.

Neural networks அந்தச் சுழற்சியைத் தாங்கிக்கொண்டன, ஆனால் அதிகப்படியான பரிமாணங்களால் அவை சிரமப்பட்டன. இரைச்சல் அதிகரித்தபோது அவை மெதுவாவதோடு துல்லியத்தையும் (accuracy) இழந்தன.

பிறகு Polyharmonic Cascade இருந்தது.

இந்த மாதிரி வழக்கமான gradient descent முறையைப் பயன்படுத்துவதில்லை. இது random function theory அடிப்படையிலான தூய கணிதத்தைப் பயன்படுத்துகிறது. மற்ற வலிமையான மாதிரிகள் தோல்வியடைந்த நிலையில், Cascade சிறப்பாகச் செயல்பட்டது. அது சுழற்சியையும் 2,000 அம்சங்களையும் எளிதாகக் கையாண்டது. கடினமான சுற்றுகளில் மற்ற அனைத்துப் போட்டியாளர்களையும் விட இது சிறப்பாகச் செயல்பட்டது.

பாடம் தெளிவானது: நவீன அட்டவணை ML பெரும்பாலும் அச்சுகளைச் (axis) சார்ந்தே உள்ளது. உங்கள் தரவின் வடிவியல் (geometry) மாறும் வரை அது சிறப்பாகச் செயல்படும். நீங்கள் சிக்கலான, சுழலப்பட்ட அல்லது அதிக இரைச்சல் கொண்ட தரவுகளுடன் பணிபுரிந்தால், உங்கள் வழக்கமான கருவிகள் உங்களுக்குத் தோல்வியளிக்கலாம்.

முழுமையான குறியீடு (code) மற்றும் முடிவுகளை நீங்கள் GitHub-இல் காணலாம். இந்தச் சோதனையை மீண்டும் செய்து பார்க்குமாறு உங்களை அழைக்கிறேன்.

மூலம்: https://dev.to/xolod7/searching-for-a-black-cat-in-a-2000-dimensional-dark-room-a-machine-learning-algorithm-tournament-n6n

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi

2000 பரிமாணங்களைக் கொண்ட இருண்ட அறையில் ஒரு கருப்புப் பூனையைத் தேடுதல்

Continue reading

From Dark Matter to AI Warfare: The Shifting Frontiers of Tech

Deep Learning-ன் பெருவெடிப்பு