La théorie de Hamilton-Jacobi relie les architectures neuronales

Translated for your language. Lire l'original.

AI-assisted draft.

il y a 4 jours1min de lecture

La théorie de Hamilton-Jacobi relie les architectures neuronales

Les réseaux de neurones ressemblent souvent à une collection d'astuces distinctes.

Les ResNets utilisent des connexions de saut (skip connections). Les Transformers utilisent l'attention. Les RNN utilisent la récurrence. Chaque modèle possède ses propres règles et sa propre mathématique. Cela rend difficile la vision d'ensemble.

De nouvelles recherches changent la donne. Elles montrent que les ResNets, les Transformers et les RNN sont en réalité le même objet mathématique. Ils suivent tous les équations de Hamilton-Jacobi.

Voici comment cela fonctionne :

La descente de gradient est un type d'évolution physique.
Chaque étape d'entraînement déplace les poids comme un fluide.
La profondeur, l'attention et la récurrence agissent comme des pas de temps dans un calcul.
Un paramètre unique contrôle le degré de lissage ou de parcimonie d'un modèle.

Cette théorie relie quatre domaines différents : les réseaux de neurones, l'algèbre tropicale, les EDP et l'optimisation convexe.

Pourquoi est-ce important pour vous ?

Les benchmarks actuels se concentrent principalement sur la précision. Ce cadre suggère une nouvelle façon de construire des modèles. Au lieu de simplement ajouter des couches, vous pouvez ajuster les mathématiques pour équilibrer lissage et stabilité.

La théorie prédit également la capacité de généralisation d'un modèle. Elle lie la quantité de données nécessaires aux mathématiques spécifiques utilisées dans votre architecture.

Il reste encore des lacunes. La plupart des modèles utilisent ReLU, mais ces mathématiques fonctionnent mieux avec des couches log-sum-exp. Nous avons également besoin de plus de tests en conditions réelles pour voir si ces règles physiques améliorent les performances.

Nous devrions cesser de considérer les architectures comme différents types de couches. Nous devrions les voir comme différentes manières de résoudre la même équation.

Source: https://dev.to/olaughter/hamilton-jacobi-view-links-major-neural-architectures-5hln

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi

La théorie de Hamilton-Jacobi relie les architectures neuronales

Continuer la lecture

La forme d'un neurone

Comment fonctionnent les Transformers

𝗛𝗲𝘁𝗲𝗿𝗼𝗴𝗲𝗻𝗲𝗼𝘂𝘀 𝗜𝗻𝗳𝗼𝗿𝗺𝗮𝘁𝗶𝗼𝗻 𝗡𝗲𝘁𝘄𝗼𝗿𝗸 𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴

𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

Les réseaux à N corps apprennent les potentiels atomiques