2000-ಆಯಾಮಗಳ ಕತ್ತಲೆ ಕೋಣೆಯಲ್ಲಿ ಕಪ್ಪು ಬೆಕ್ಕನ್ನು ಹುಡುಕುವುದು

ನಾನು ಮಷೀನ್ ಲರ್ನಿಂಗ್ ಅಲ್ಗಾರಿದಮ್‌ಗಳಿಗಾಗಿ ಸ್ಟ್ರೆಸ್ ಟೆಸ್ಟ್ ನಡೆಸಿದೆ.

ಹೆಚ್ಚಿನ ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು ನೀರಸವಾಗಿರುತ್ತವೆ. ಅವು MNIST ಅಥವಾ Titanic ನಂತಹ ಸರಳ ಡೇಟಾ ಸೆಟ್‌ಗಳನ್ನು ಬಳಸುತ್ತವೆ. ನಾನು ಮಾಡೆಲ್‌ಗಳನ್ನು ಅವುಗಳ ಮಿತಿ ಮೀರುವ ಮಟ್ಟಕ್ಕೆ ತರಲು ಬಯಸಿದೆ.

ನಾನು 21 ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಪರಸ್ಪರ ಹೋಲಿಕೆ ಮಾಡಿದೆ. ಇದರಲ್ಲಿ ಸೇರಿವೆ:

  • ಸಾಂಪ್ರದಾಯಿಕ ಮಾಡೆಲ್‌ಗಳು (Traditional models): Linear Regression, k-NN, SVR.
  • ಟ್ರೀ ಎನ್‌ಸೆಂಬಲ್ಸ್ (Tree ensembles): Random Forest, ExtraTrees.
  • ಬೂಸ್ಟಿಂಗ್ ಹೆವಿವೇಯ್ಟ್‌ಗಳು (Boosting heavyweights): XGBoost, LightGBM, CatBoost, HistGradientBoosting.
  • ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳು (Neural Networks): Multi-layer perceptrons ಮತ್ತು TabNet.
  • ಅನ್‌ಡರ್‌ಡಾಗ್ (The underdog): Polyharmonic Cascade.

ಕಾರ್ಯವು ಸರಳವಾಗಿ ಕಂಡಿತು. ಒಂದು ಸಂಕೀರ್ಣವಾದ 3D ಮೇಲ್ಮೈಯನ್ನು (surface) ಕಲಿಯಲು ನಾನು ಮಾಡೆಲ್‌ಗಳಿಗೆ ಸೂಚಿಸಿದೆ. ಆದರೆ ನಂತರ ನಾನು ಎರಡು ದೊಡ್ಡ ಅಡೆತಡೆಗಳನ್ನು ಸೇರಿಸಿದೆ:

  1. ಆಯಾಮದ ಶಬ್ದ (Dimensionality Noise): ನಾನು ಅವುಗಳಿಗೆ 2,000 ಫೀಚರ್‌ಗಳನ್ನು ನೀಡಿದೆ. ಅವುಗಳಲ್ಲಿ ಕೇವಲ ಎರಡು ಮಾತ್ರ ನಿಜವಾಗಿದ್ದವು. ಉಳಿದ 1,998 ಕೇವಲ ಶಬ್ದ (noise) ಆಗಿದ್ದವು. ಇದು ಜೀನೋಮಿಕ್ಸ್ ಅಥವಾ ಸೆನ್ಸರ್ ರೀಡಿಂಗ್‌ಗಳಂತಹ ನೈಜ ಪ್ರಪಂಚದ ಡೇಟಾವನ್ನು ಹೋಲುತ್ತದೆ.

  2. ಕೋಆರ್ಡಿನೇಟ್ ರೊಟೇಶನ್ (Coordinate Rotation): ನಾನು ಇಡೀ ಫೀಚರ್ ಸ್ಪೇಸ್ ಅನ್ನು ತಿರುಗಿಸಿದೆ (rotate). ಇದರರ್ಥ ಉಪಯುಕ್ತ ಸಿಗ್ನಲ್ ಯಾವುದೇ ಒಂದೇ ಕಾಲಂ ಜೊತೆಗೆ ಹೊಂದಾಣಿಕೆಯಾಗಿರಲಿಲ್ಲ. ಅದು ಎಲ್ಲಾ 2,000 ಆಯಾಮಗಳಲ್ಲಿ ಹರಡಿತ್ತು.

ಫಲಿತಾಂಶಗಳು ಆಘಾತಕಾರಿಯಾಗಿದ್ದವು.

XGBoost ಮತ್ತು LightGBM ನಂತಹ ಟ್ರೀ-ಆಧಾರಿತ ಮಾಡೆಲ್‌ಗಳು ಟ್ಯಾಬ್ಯುಲರ್ ಡೇಟಾದ ರಾಜರು. ಡೇಟಾ ಕಾಲಂಗಳಿಗೆ ಅನುಗುಣವಾಗಿದ್ದಾಗ ಅವು ಗೆಲ್ಲುತ್ತವೆ. ಆದರೆ ನಾನು ಸ್ಪೇಸ್ ಅನ್ನು ರೊಟೇಟ್ ಮಾಡಿದಾಗ, ಅವು ವಿಫಲವಾದವು. ಶಬ್ದದ (noise) ನಡುವೆ ಸಿಗ್ನಲ್ ಅನ್ನು ಅವುಗಳಿಗೆ ಪತ್ತೆಹಚ್ಚಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ.

ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳು ರೊಟೇಶನ್ ಅನ್ನು ತಡೆದುಕೊಳ್ಳುವಲ್ಲಿ ಯಶಸ್ವಿಯಾದವು, ಆದರೆ ಹೆಚ್ಚಿನ ಆಯಾಮದ (high dimensionality) ವಿಷಯದಲ್ಲಿ ಅವು ಕಷ್ಟಪಟ್ಟವು. ಶಬ್ದವು ಹೆಚ್ಚಾದಂತೆ ಅವು ನಿಧಾನವಾದವು ಮತ್ತು ನಿಖರತೆಯನ್ನು ಕಳೆದುಕೊಂಡವು.

ನಂತರ ಅಲ್ಲಿ Polyharmonic Cascade ಇತ್ತು.

ಈ ಮಾಡೆಲ್ ಪ್ರಮಾಣಿತ ಗ್ರೇಡಿಯಂಟ್ ಡಿಸೆಂಟ್ (gradient descent) ಅನ್ನು ಬಳಸುವುದಿಲ್ಲ. ಇದು ರ್ಯಾಂಡಮ್ ಫಂಕ್ಷನ್ ಥಿಯರಿ ಆಧಾರಿತ ಶುದ್ಧ ಗಣಿತವನ್ನು ಬಳಸುತ್ತದೆ. ಹೆವಿವೇಯ್ಟ್‌ಗಳು ವಿಫಲವಾದಾಗ, Cascade ಯಶಸ್ವಿಯಾಯಿತು. ಅದು ರೊಟೇಶನ್ ಮತ್ತು 2,000 ಫೀಚರ್‌ಗಳನ್ನು ಸುಲಭವಾಗಿ ನಿಭಾಯಿಸಿತು. ಕಠಿಣ ಸುತ್ತುಗಳಲ್ಲಿ ಇದು ಬಹುತೇಕ ಎಲ್ಲಾ ಇತರ ಸ್ಪರ್ಧಿಗಳಿಗಿಂತ ಉತ್ತಮ ಪ್ರದರ್ಶನ ನೀಡಿತು.

ಪಾಠ ಸ್ಪಷ್ಟವಾಗಿದೆ: ಆಧುನಿಕ ಟ್ಯಾಬ್ಯುಲರ್ ML ಹೆಚ್ಚಾಗಿ ಅಕ್ಷ (axis) ಅವಲಂಬಿತವಾಗಿದೆ. ನಿಮ್ಮ ಡೇಟಾ ಜ್ಯಾಮಿತಿ (geometry) ಬದಲಾಗುವವರೆಗೆ ಇದು ಅದ್ಭುತವಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ. ನೀವು ಸಂಕೀರ್ಣವಾದ, ರೊಟೇಟ್ ಆಗಿರುವ ಅಥವಾ ಹೆಚ್ಚು ಶಬ್ದವುಳ್ಳ (noisy) ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವುದಾದರೆ, ನಿಮ್ಮ ಪ್ರಮಾಣಿತ ಪರಿಕರಗಳು ವಿಫಲವಾಗಬಹುದು.

ನೀವು ಪೂರ್ಣ ಕೋಡ್ ಮತ್ತು ಫಲಿತಾಂಶಗಳನ್ನು GitHub ನಲ್ಲಿ ಕಾಣಬಹುದು. ಈ ಪ್ರಯೋಗವನ್ನು ಪುನರಾವರ್ತಿಸಲು ನಾನು ನಿಮ್ಮನ್ನು ಆಹ್ವಾನಿಸುತ್ತೇನೆ.

ಮೂಲ (Source): https://dev.to/xolod7/searching-for-a-black-cat-in-a-2000-dimensional-dark-room-a-machine-learning-algorithm-tournament-n6n

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ (Optional learning community): https://t.me/GyaanSetuAi