GPT n'a aucune idée de ce que les mots signifient
GPT ne comprend pas le langage. Il comprend les nombres.
La plupart des gens expliquent l'attention par des métaphores. Ils utilisent des flèches ou des connexions lumineuses. Ce n'est pas ainsi que cela fonctionne.
J'ai tracé les mathématiques à la main. J'ai utilisé de véritables multiplications de matrices. Voici la réalité du fonctionnement d'un transformer.
Le processus commence par les embeddings. Chaque mot reçoit une coordonnée aléatoire. Par exemple, le mot « love » pourrait commencer à [0,10, 0,30]. Ces nombres ne signifient rien au début.
Ensuite, l'attention intervient.
Prenez la phrase : « The dog chased the cat because it was fast. »
Le modèle doit décider si « it » se rapporte au chien ou au chat. Il n'a aucune règle de grammaire à suivre. Il regarde seulement les mots précédents et attribue un score. Il se demande : « À quel point dois-je vous accorder de l'attention en ce moment ? »
Cela donne une table de poids.
Pour la séquence [I, love, pizza] :
- « love » pourrait accorder 51 % d'attention à « I » et 49 % à lui-même.
- « pizza » peut voir l'ensemble de la situation. Il répartit l'attention sur les trois mots.
Ce n'est pas une métaphore. Le mot « love » commence comme un vecteur. Après l'attention, il devient un nouveau vecteur. Il change physiquement de position dans l'espace. Il absorbe une partie du vecteur de « I ».
Le mot « love » dans le contexte de « I » est un point mathématique différent de « love » utilisé seul. Le contexte n'est que des mathématiques mélangeant des vecteurs.
Comment apprend-il ? Par de minuscules décalages.
Lorsque le modèle se trompe dans sa prédiction, la rétropropagation (backpropagation) ajuste les poids. Ces changements sont minimes. Un poids peut passer de 0,400 à 0,397.
Un minuscule changement de 0,009 peut faire basculer une prédiction de l'erreur vers la justesse. GPT-3 l'a fait 300 milliards de fois.
Cela crée une généralisation zero-shot. Le modèle apprend que « You » et « I » sont mathématiquement similaires. Il prédit « love » après « You » même s'il n'a jamais vu cette paire spécifique. Il le fait grâce à la proximité géométrique.
Le modèle n'apprend jamais une règle. Il apprend une direction.
Chaque poids est une minuscule aiguille de boussole. L'entraînement oriente ces aiguilles pour que la géométrie devienne utile. Il n'y a pas de livre de grammaire. Il n'y a que des mathématiques.
Source : https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li
Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi
