Tìm kiếm một con mèo đen trong căn phòng tối 2000 chiều

Tôi đã thực hiện một bài kiểm tra áp lực (stress test) cho các thuật toán học máy.

Hầu hết các bài kiểm tra chuẩn (benchmarks) đều rất nhàm chán. Chúng sử dụng các bộ dữ liệu đơn giản như MNIST hay Titanic. Tôi muốn đẩy các mô hình đến giới hạn chịu đựng của chúng.

Tôi đã cho 21 thuật toán đối đầu với nhau. Danh sách bao gồm:

  • Các mô hình truyền thống: Linear Regression, k-NN, SVR.
  • Các mô hình ensemble dạng cây: Random Forest, ExtraTrees.
  • Các "ông lớn" trong nhóm Boosting: XGBoost, LightGBM, CatBoost, HistGradientBoosting.
  • Mạng thần kinh: Multi-layer perceptrons và TabNet.
  • "Kẻ yếu thế": Polyharmonic Cascade.

Nhiệm vụ trông có vẻ đơn giản. Tôi yêu cầu các mô hình học một bề mặt 3D phức tạp. Nhưng sau đó, tôi đã thêm vào hai rào cản khổng lồ:

  1. Nhiễu đa chiều: Tôi cung cấp cho chúng 2.000 đặc trưng (features). Chỉ có hai đặc trưng là thực sự có ý nghĩa. 1.998 đặc trưng còn lại hoàn toàn là nhiễu. Điều này mô phỏng dữ liệu thực tế như dữ liệu di truyền học hoặc các chỉ số từ cảm biến.

  2. Xoay tọa độ: Tôi đã xoay toàn bộ không gian đặc trưng. Điều này có nghĩa là tín hiệu hữu ích không còn nằm thẳng hàng với bất kỳ cột đơn lẻ nào nữa. Nó bị trải rộng ra khắp cả 2.000 chiều.

Kết quả thật gây sốc.

Các mô hình dựa trên cây như XGBoost và LightGBM là những "ông vua" của dữ liệu dạng bảng (tabular data). Chúng chiến thắng khi dữ liệu nằm thẳng hàng với các cột. Nhưng khi tôi xoay không gian, chúng hoàn toàn sụp đổ. Chúng không thể tìm thấy tín hiệu trong đống nhiễu.

Các mạng thần kinh vẫn trụ vững sau khi xoay, nhưng chúng gặp khó khăn với số chiều cao. Chúng trở nên chậm chạp và mất dần độ chính xác khi nhiễu tăng lên.

Và rồi, có Polyharmonic Cascade.

Mô hình này không sử dụng phương pháp gradient descent tiêu chuẩn. Nó sử dụng toán học thuần túy dựa trên lý thuyết hàm ngẫu nhiên (random function theory). Trong khi các "ông lớn" thất bại, Cascade lại phát triển mạnh mẽ. Nó xử lý việc xoay tọa độ và 2.000 đặc trưng một cách dễ dàng. Nó vượt xa hầu hết các đối thủ khác trong những vòng thi khó nhất.

Bài học rút ra rất rõ ràng: Học máy cho dữ liệu bảng hiện đại thường phụ thuộc vào trục (axis-dependent). Nó hoạt động tuyệt vời cho đến khi cấu trúc hình học của dữ liệu thay đổi. Nếu bạn làm việc với dữ liệu phức tạp, bị xoay hoặc có độ nhiễu cao, các công cụ tiêu chuẩn có thể sẽ khiến bạn thất vọng.

Bạn có thể tìm thấy toàn bộ mã nguồn và kết quả trên GitHub. Tôi mời bạn cùng tái lập thí nghiệm này.

Nguồn: https://dev.to/xolod7/searching-for-a-black-cat-in-a-2000-dimensional-dark-room-a-machine-learning-algorithm-tournament-n6n

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi