2000 ಆಯಾಮಗಳ ಕತ್ತಲೆ ಕೋಣೆಯಲ್ಲಿ ಕಪ್ಪು ಬೆಕ್ಕನ್ನು ಹುಡುಕುವುದು

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 ವಾರಗಳ ಹಿಂದೆ2min read

2000-ಆಯಾಮಗಳ ಕತ್ತಲೆ ಕೋಣೆಯಲ್ಲಿ ಕಪ್ಪು ಬೆಕ್ಕನ್ನು ಹುಡುಕುವುದು

ನಾನು ಮಷೀನ್ ಲರ್ನಿಂಗ್ ಅಲ್ಗಾರಿದಮ್‌ಗಳಿಗಾಗಿ ಸ್ಟ್ರೆಸ್ ಟೆಸ್ಟ್ ನಡೆಸಿದೆ.

ಹೆಚ್ಚಿನ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ನೀರಸವಾಗಿರುತ್ತವೆ. ಅವು MNIST ಅಥವಾ Titanic ನಂತಹ ಸರಳ ಡೇಟಾ ಸೆಟ್‌ಗಳನ್ನು ಬಳಸುತ್ತವೆ. ನಾನು ಮಾಡೆಲ್‌ಗಳನ್ನು ಅವುಗಳ ಮಿತಿ ಮೀರುವ ಮಟ್ಟಕ್ಕೆ ತರಲು ಬಯಸಿದೆ.

ನಾನು 21 ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಪರಸ್ಪರ ಹೋಲಿಕೆ ಮಾಡಿದೆ. ಇದರಲ್ಲಿ ಸೇರಿವೆ:

ಸಾಂಪ್ರದಾಯಿಕ ಮಾಡೆಲ್‌ಗಳು (Traditional models): Linear Regression, k-NN, SVR.
ಟ್ರೀ ಎನ್‌ಸೆಂಬಲ್ಸ್ (Tree ensembles): Random Forest, ExtraTrees.
ಬೂಸ್ಟಿಂಗ್ ಹೆವಿವೇಯ್ಟ್‌ಗಳು (Boosting heavyweights): XGBoost, LightGBM, CatBoost, HistGradientBoosting.
ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳು (Neural Networks): Multi-layer perceptrons ಮತ್ತು TabNet.
ಅನ್‌ಡರ್‌ಡಾಗ್ (The underdog): Polyharmonic Cascade.

ಕಾರ್ಯವು ಸರಳವಾಗಿ ಕಂಡಿತು. ಒಂದು ಸಂಕೀರ್ಣವಾದ 3D ಮೇಲ್ಮೈಯನ್ನು (surface) ಕಲಿಯಲು ನಾನು ಮಾಡೆಲ್‌ಗಳಿಗೆ ಸೂಚಿಸಿದೆ. ಆದರೆ ನಂತರ ನಾನು ಎರಡು ದೊಡ್ಡ ಅಡೆತಡೆಗಳನ್ನು ಸೇರಿಸಿದೆ:

ಆಯಾಮದ ಶಬ್ದ (Dimensionality Noise): ನಾನು ಅವುಗಳಿಗೆ 2,000 ಫೀಚರ್‌ಗಳನ್ನು ನೀಡಿದೆ. ಅವುಗಳಲ್ಲಿ ಕೇವಲ ಎರಡು ಮಾತ್ರ ನಿಜವಾಗಿದ್ದವು. ಉಳಿದ 1,998 ಕೇವಲ ಶಬ್ದ (noise) ಆಗಿದ್ದವು. ಇದು ಜೀನೋಮಿಕ್ಸ್ ಅಥವಾ ಸೆನ್ಸರ್ ರೀಡಿಂಗ್‌ಗಳಂತಹ ನೈಜ ಪ್ರಪಂಚದ ಡೇಟಾವನ್ನು ಹೋಲುತ್ತದೆ.
ಕೋಆರ್ಡಿನೇಟ್ ರೊಟೇಶನ್ (Coordinate Rotation): ನಾನು ಇಡೀ ಫೀಚರ್ ಸ್ಪೇಸ್ ಅನ್ನು ತಿರುಗಿಸಿದೆ (rotate). ಇದರರ್ಥ ಉಪಯುಕ್ತ ಸಿಗ್ನಲ್ ಯಾವುದೇ ಒಂದೇ ಕಾಲಂ ಜೊತೆಗೆ ಹೊಂದಾಣಿಕೆಯಾಗಿರಲಿಲ್ಲ. ಅದು ಎಲ್ಲಾ 2,000 ಆಯಾಮಗಳಲ್ಲಿ ಹರಡಿತ್ತು.

ಫಲಿತಾಂಶಗಳು ಆಘಾತಕಾರಿಯಾಗಿದ್ದವು.

XGBoost ಮತ್ತು LightGBM ನಂತಹ ಟ್ರೀ-ಆಧಾರಿತ ಮಾಡೆಲ್‌ಗಳು ಟ್ಯಾಬ್ಯುಲರ್ ಡೇಟಾದ ರಾಜರು. ಡೇಟಾ ಕಾಲಂಗಳಿಗೆ ಅನುಗುಣವಾಗಿದ್ದಾಗ ಅವು ಗೆಲ್ಲುತ್ತವೆ. ಆದರೆ ನಾನು ಸ್ಪೇಸ್ ಅನ್ನು ರೊಟೇಟ್ ಮಾಡಿದಾಗ, ಅವು ವಿಫಲವಾದವು. ಶಬ್ದದ (noise) ನಡುವೆ ಸಿಗ್ನಲ್ ಅನ್ನು ಅವುಗಳಿಗೆ ಪತ್ತೆಹಚ್ಚಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ.

ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳು ರೊಟೇಶನ್ ಅನ್ನು ತಡೆದುಕೊಳ್ಳುವಲ್ಲಿ ಯಶಸ್ವಿಯಾದವು, ಆದರೆ ಹೆಚ್ಚಿನ ಆಯಾಮದ (high dimensionality) ವಿಷಯದಲ್ಲಿ ಅವು ಕಷ್ಟಪಟ್ಟವು. ಶಬ್ದವು ಹೆಚ್ಚಾದಂತೆ ಅವು ನಿಧಾನವಾದವು ಮತ್ತು ನಿಖರತೆಯನ್ನು ಕಳೆದುಕೊಂಡವು.

ನಂತರ ಅಲ್ಲಿ Polyharmonic Cascade ಇತ್ತು.

ಈ ಮಾಡೆಲ್ ಪ್ರಮಾಣಿತ ಗ್ರೇಡಿಯಂಟ್ ಡಿಸೆಂಟ್ (gradient descent) ಅನ್ನು ಬಳಸುವುದಿಲ್ಲ. ಇದು ರ್ಯಾಂಡಮ್ ಫಂಕ್ಷನ್ ಥಿಯರಿ ಆಧಾರಿತ ಶುದ್ಧ ಗಣಿತವನ್ನು ಬಳಸುತ್ತದೆ. ಹೆವಿವೇಯ್ಟ್‌ಗಳು ವಿಫಲವಾದಾಗ, Cascade ಯಶಸ್ವಿಯಾಯಿತು. ಅದು ರೊಟೇಶನ್ ಮತ್ತು 2,000 ಫೀಚರ್‌ಗಳನ್ನು ಸುಲಭವಾಗಿ ನಿಭಾಯಿಸಿತು. ಕಠಿಣ ಸುತ್ತುಗಳಲ್ಲಿ ಇದು ಬಹುತೇಕ ಎಲ್ಲಾ ಇತರ ಸ್ಪರ್ಧಿಗಳಿಗಿಂತ ಉತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡಿತು.

ಪಾಠ ಸ್ಪಷ್ಟವಾಗಿದೆ: ಆಧುನಿಕ ಟ್ಯಾಬ್ಯುಲರ್ ML ಹೆಚ್ಚಾಗಿ ಅಕ್ಷ (axis) ಅವಲಂಬಿತವಾಗಿದೆ. ನಿಮ್ಮ ಡೇಟಾ ಜ್ಯಾಮಿತಿ (geometry) ಬದಲಾಗುವವರೆಗೆ ಇದು ಅದ್ಭುತವಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ. ನೀವು ಸಂಕೀರ್ಣವಾದ, ರೊಟೇಟ್ ಆಗಿರುವ ಅಥವಾ ಹೆಚ್ಚು ಶಬ್ದವುಳ್ಳ (noisy) ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವುದಾದರೆ, ನಿಮ್ಮ ಪ್ರಮಾಣಿತ ಪರಿಕರಗಳು ವಿಫಲವಾಗಬಹುದು.

ನೀವು ಪೂರ್ಣ ಕೋಡ್ ಮತ್ತು ಫಲಿತಾಂಶಗಳನ್ನು GitHub ನಲ್ಲಿ ಕಾಣಬಹುದು. ಈ ಪ್ರಯೋಗವನ್ನು ಪುನರಾವರ್ತಿಸಲು ನಾನು ನಿಮ್ಮನ್ನು ಆಹ್ವಾನಿಸುತ್ತೇನೆ.

ಮೂಲ (Source): https://dev.to/xolod7/searching-for-a-black-cat-in-a-2000-dimensional-dark-room-a-machine-learning-algorithm-tournament-n6n

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ (Optional learning community): https://t.me/GyaanSetuAi

2000 ಆಯಾಮಗಳ ಕತ್ತಲೆ ಕೋಣೆಯಲ್ಲಿ ಕಪ್ಪು ಬೆಕ್ಕನ್ನು ಹುಡುಕುವುದು

2000-ಆಯಾಮಗಳ ಕತ್ತಲೆ ಕೋಣೆಯಲ್ಲಿ ಕಪ್ಪು ಬೆಕ್ಕನ್ನು ಹುಡುಕುವುದು

Continue reading

ಡಾರ್ಕ್ ಮ್ಯಾಟರ್‌ನಿಂದ ಎಐ ಯುದ್ಧದವರೆಗೆ: ತಂತ್ರಜ್ಞಾನದ ಬದಲಾಗುತ್ತಿರುವ ಗಡಿಗಳು

The Big Bang of Deep Learning