Trois idées qui ont rendu l'IA possible

L'IA moderne ressemble à de la magie. Vous tapez une phrase et une machine vous répond. Cela semble exotique.

Ce n'est pas le cas.

L'IA moderne existe parce que des ingénieurs ont résolu des problèmes spécifiques. Ils ont trouvé des réseaux défaillants et les ont réparés.

Voici les trois correctifs d'ingénierie qui ont permis de construire le Transformer.

  1. Skip Connections

En 2014, des chercheurs ont tenté de rendre les réseaux de neurones plus profonds. Ils pensaient que davantage de couches signifierait de meilleurs résultats. Cela a échoué. Les réseaux plus profonds étaient en réalité moins performants.

Le signal d'erreur utilisé pour entraîner le réseau s'amenuisait jusqu'à disparaître ou explosait en traversant de nombreuses couches. Les premières couches ne recevaient aucun retour utile.

La solution était simple. Au lieu de forcer chaque couche à modifier l'entrée, laissez l'entrée « sauter » les étapes.

Dans un bloc ResNet, vous réajoutez l'entrée originale à la sortie. Cela crée un chemin direct pour la propagation du signal. L'ajout de couches supplémentaires ne casse plus le système. Si une couche n'est pas utile, elle peut simplement transmettre l'entrée sans la modifier.

  1. Normalisation

À mesure que les données circulent dans un réseau, les nombres dérivent. Une couche peut produire 0,01 tandis que la suivante produit 5000. Lorsque les nombres atteignent ces extrêmes, l'apprentissage s'arrête.

La normalisation corrige cela en équilibrant les volumes. Elle recentre les nombres autour de zéro et les ajuste à une plage cohérente.

Cela maintient la stabilité mathématique. Cela vous permet d'utiliser des taux d'apprentissage plus élevés et d'entraîner les modèles beaucoup plus rapidement. C'est un correctif pratique qui permet d'économiser d'innombrables heures de débogage.

  1. Attention

Les anciens modèles lisaient le texte mot après mot. C'était lent car il était impossible de traiter les mots en parallèle. Ils étaient également sujets à l'oubli, car le modèle perdait le début de la phrase lorsqu'il arrivait à la fin.

L'attention change la donne. Au lieu de lire de manière séquentielle, chaque mot examine tous les autres mots d'une phrase en même temps.

Le mot « it » peut se lier directement à son nom, peu importe la distance qui les sépare. Comme les mots ne dépendent pas d'une séquence, vous pouvez tout calculer simultanément à l'aide d'un GPU.

Le Transformer combine ces trois éléments. Il utilise des blocs d'attention enveloppés dans des skip connections avec une normalisation entre les deux.

L'IA ne nécessite pas une percée dans la compréhension de l'intelligence. Elle a nécessité trois correctifs intelligents pour des systèmes défaillants.

Source : https://dev.to/karthi_raman_02ec8161bda0/three-ideas-made-modern-ai-possible-none-of-them-are-magic-523i

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi