Trois idées qui ont rendu l'IA possible

Translated for your language. Lire l'original.

AI-assisted draft.

GyaanSetu Editorialavant-hier2min de lecture

Trois idées qui ont rendu l'IA possible

L'IA moderne ressemble à de la magie. Vous tapez une phrase et une machine vous répond. Cela semble exotique.

Ce n'est pas le cas.

L'IA moderne existe parce que des ingénieurs ont résolu des problèmes spécifiques. Ils ont trouvé des réseaux défaillants et les ont réparés.

Voici les trois correctifs d'ingénierie qui ont permis de construire le Transformer.

Skip Connections

En 2014, des chercheurs ont tenté de rendre les réseaux de neurones plus profonds. Ils pensaient que davantage de couches signifierait de meilleurs résultats. Cela a échoué. Les réseaux plus profonds étaient en réalité moins performants.

Le signal d'erreur utilisé pour entraîner le réseau s'amenuisait jusqu'à disparaître ou explosait en traversant de nombreuses couches. Les premières couches ne recevaient aucun retour utile.

La solution était simple. Au lieu de forcer chaque couche à modifier l'entrée, laissez l'entrée « sauter » les étapes.

Dans un bloc ResNet, vous réajoutez l'entrée originale à la sortie. Cela crée un chemin direct pour la propagation du signal. L'ajout de couches supplémentaires ne casse plus le système. Si une couche n'est pas utile, elle peut simplement transmettre l'entrée sans la modifier.

Normalisation

À mesure que les données circulent dans un réseau, les nombres dérivent. Une couche peut produire 0,01 tandis que la suivante produit 5000. Lorsque les nombres atteignent ces extrêmes, l'apprentissage s'arrête.

La normalisation corrige cela en équilibrant les volumes. Elle recentre les nombres autour de zéro et les ajuste à une plage cohérente.

Cela maintient la stabilité mathématique. Cela vous permet d'utiliser des taux d'apprentissage plus élevés et d'entraîner les modèles beaucoup plus rapidement. C'est un correctif pratique qui permet d'économiser d'innombrables heures de débogage.

Attention

Les anciens modèles lisaient le texte mot après mot. C'était lent car il était impossible de traiter les mots en parallèle. Ils étaient également sujets à l'oubli, car le modèle perdait le début de la phrase lorsqu'il arrivait à la fin.

L'attention change la donne. Au lieu de lire de manière séquentielle, chaque mot examine tous les autres mots d'une phrase en même temps.

Le mot « it » peut se lier directement à son nom, peu importe la distance qui les sépare. Comme les mots ne dépendent pas d'une séquence, vous pouvez tout calculer simultanément à l'aide d'un GPU.

Le Transformer combine ces trois éléments. Il utilise des blocs d'attention enveloppés dans des skip connections avec une normalisation entre les deux.

L'IA ne nécessite pas une percée dans la compréhension de l'intelligence. Elle a nécessité trois correctifs intelligents pour des systèmes défaillants.

Source : https://dev.to/karthi_raman_02ec8161bda0/three-ideas-made-modern-ai-possible-none-of-them-are-magic-523i

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi

Trois idées qui ont rendu l'IA possible

Continuer la lecture

Corriger les hallucinations de l'IA

Le fossé de la gouvernance de l'IA

Comment fonctionnent les Transformers

𝗔𝗜 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗥𝗲𝗽𝗹𝗮𝗰𝗲 𝗧𝗵𝗶𝗻𝗸𝗶𝗻𝗴. 𝗜𝘁 𝗔𝗺𝗽𝗹𝗶𝗳𝗶𝗲𝘀 𝗜𝘁.

𝗧𝗵𝗿𝗲𝗲 𝗜𝗱𝗲𝗮𝘀 𝗧𝗵𝗮𝘁 𝗠𝗮𝗱𝗲 𝗠𝗼𝗱𝗲𝗿𝗻 𝗔𝗜 𝗣𝗼𝘀𝘀𝗶𝗯𝗹𝗲