𝗛𝗮𝗺𝗶𝗹𝘁𝗼𝗻-𝗝𝗮𝗰𝗼𝗯𝗶 𝗧𝗵𝗲𝗼𝗿𝘆 𝗟𝗶𝗻𝗸𝘀 𝗡𝗲𝘂𝗿𝗮𝗹 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲𝘀
Jaringan saraf sering kali terasa seperti kumpulan trik yang terpisah.
ResNet menggunakan skip connections. Transformer menggunakan attention. RNN menggunakan recurrence. Setiap model memiliki aturan dan matematika tersendiri. Hal ini membuat gambaran besarnya sulit untuk dilihat.
Penelitian baru mengubah hal ini. Penelitian tersebut menunjukkan bahwa ResNet, Transformer, dan RNN sebenarnya adalah objek matematika yang sama. Semuanya mengikuti persamaan Hamilton-Jacobi.
Begini cara kerjanya:
- Gradient descent adalah sejenis evolusi fisika.
- Setiap langkah pelatihan menggerakkan bobot seperti fluida.
- Kedalaman, attention, dan recurrence bertindak seperti langkah waktu dalam sebuah perhitungan.
- Sebuah parameter tunggal mengontrol seberapa halus (smooth) atau jarang (sparse) sebuah model.
Teori ini menghubungkan empat bidang yang berbeda: jaringan saraf, aljabar tropis, PDE, dan optimasi konveks.
Mengapa ini penting bagi Anda?
Tolok ukur (benchmark) saat ini sebagian besar berfokus pada akurasi. Kerangka kerja ini menyarankan cara baru untuk membangun model. Alih-alih hanya menambah lapisan, Anda dapat menyetel matematikanya untuk menyeimbangkan kehalusan (smoothness) dan stabilitas.
Teori ini juga memprediksi seberapa baik sebuah model akan melakukan generalisasi. Teori ini menghubungkan seberapa banyak data yang Anda butuhkan dengan matematika spesifik yang digunakan dalam arsitektur Anda.
Masih ada celah. Sebagian besar model menggunakan ReLU, tetapi matematika ini bekerja paling baik dengan lapisan log-sum-exp. Kita juga membutuhkan lebih banyak pengujian dunia nyata untuk melihat apakah aturan fisika ini meningkatkan performa.
Kita harus berhenti memandang arsitektur sebagai jenis lapisan yang berbeda. Kita harus memandangnya sebagai cara yang berbeda untuk menyelesaikan persamaan yang sama.
Sumber: https://dev.to/olaughter/hamilton-jacobi-view-links-major-neural-architectures-5hln
Komunitas belajar opsional: https://t.me/GyaanSetuAi