La théorie de Hamilton-Jacobi relie les architectures neuronales

Les réseaux de neurones ressemblent souvent à une collection d'astuces distinctes.

Les ResNets utilisent des connexions de saut (skip connections). Les Transformers utilisent l'attention. Les RNN utilisent la récurrence. Chaque modèle possède ses propres règles et sa propre mathématique. Cela rend difficile la vision d'ensemble.

De nouvelles recherches changent la donne. Elles montrent que les ResNets, les Transformers et les RNN sont en réalité le même objet mathématique. Ils suivent tous les équations de Hamilton-Jacobi.

Voici comment cela fonctionne :

  • La descente de gradient est un type d'évolution physique.
  • Chaque étape d'entraînement déplace les poids comme un fluide.
  • La profondeur, l'attention et la récurrence agissent comme des pas de temps dans un calcul.
  • Un paramètre unique contrôle le degré de lissage ou de parcimonie d'un modèle.

Cette théorie relie quatre domaines différents : les réseaux de neurones, l'algèbre tropicale, les EDP et l'optimisation convexe.

Pourquoi est-ce important pour vous ?

Les benchmarks actuels se concentrent principalement sur la précision. Ce cadre suggère une nouvelle façon de construire des modèles. Au lieu de simplement ajouter des couches, vous pouvez ajuster les mathématiques pour équilibrer lissage et stabilité.

La théorie prédit également la capacité de généralisation d'un modèle. Elle lie la quantité de données nécessaires aux mathématiques spécifiques utilisées dans votre architecture.

Il reste encore des lacunes. La plupart des modèles utilisent ReLU, mais ces mathématiques fonctionnent mieux avec des couches log-sum-exp. Nous avons également besoin de plus de tests en conditions réelles pour voir si ces règles physiques améliorent les performances.

Nous devrions cesser de considérer les architectures comme différents types de couches. Nous devrions les voir comme différentes manières de résoudre la même équation.

Source: https://dev.to/olaughter/hamilton-jacobi-view-links-major-neural-architectures-5hln

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi