GPT heeft geen idee wat woorden betekenen
GPT begrijpt geen taal. Het begrijpt getallen.
De meeste mensen leggen attention uit met metaforen. Ze gebruiken pijlen of gloeiende verbindingen. Zo werkt het niet.
Ik heb de wiskunde met de hand uitgewerkt. Ik heb daadwerkelijke matrixvermenigvuldigingen gebruikt. Dit is de realiteit van hoe een transformer werkt.
Het proces begint met embeddings. Elk woord krijgt een willekeurige coördinaat. Bijvoorbeeld, het woord "love" begint misschien bij [0.10, 0.30]. Deze getallen betekenen in het begin niets.
Dan vindt attention plaats.
Neem de zin: "The dog chased the cat because it was fast."
Het model moet beslissen of "it" verwijst naar de hond of de kat. Het heeft geen grammatica-regels om te volgen. Het kijkt alleen naar eerdere woorden en wijst een score toe. Het vraagt zich af: "Hoeveel aandacht moet ik op dit moment aan jou besteden?"
Dit resulteert in een gewichtstabel.
Voor de sequentie [I, love, pizza]:
- "love" geeft misschien 51% attention aan "I" en 49% aan zichzelf.
- "pizza" kan het hele plaatje zien. Het verspreidt de attention over alle drie de woorden.
Dit is geen metafoor. Het woord "love" begint als één vector. Na attention wordt het een nieuwe vector. Het verandert fysiek van positie in de ruimte. Het absorbeert een deel van de vector van "I".
Het woord "love" in de context van "I" is een ander wiskundig punt dan "love" dat alleen staat. Context is simpelweg wiskunde die vectoren mengt.
Hoe leert het? Door minuscule verschuivingen.
Wanneer het model een foutieve voorspelling doet, zorgt backpropagation voor een kleine aanpassing van de gewichten. Deze veranderingen zijn klein. Een gewicht kan verschuiven van 0.400 naar 0.397.
Eén kleine verandering van 0.009 kan een voorspelling van fout naar goed doen omslaan. GPT-3 deed dit 300 miljard keer.
Dit creëert zero-shot generalisatie. Het model leert dat "You" en "I" wiskundig gezien vergelijkbaar zijn. Het voorspelt "love" na "You", zelfs als het dit specifieke paar nooit eerder heeft gezien. Dit doet het vanwege de geometrische nabijheid.
Het model leert nooit een regel. Het leert een richting.
Elk gewicht is een minuscuul kompasnaaldje. Training richt deze naaldjes zodat de geometrie nuttig wordt. Er is geen grammaticaboek. Er is alleen wiskunde.
Bron: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li
Optionele leercommunity: https://t.me/GyaanSetuAi
