GPT heeft geen idee wat woorden betekenen

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial2 weken geleden2min read

GPT heeft geen idee wat woorden betekenen

GPT begrijpt geen taal. Het begrijpt getallen.

De meeste mensen leggen attention uit met metaforen. Ze gebruiken pijlen of gloeiende verbindingen. Zo werkt het niet.

Ik heb de wiskunde met de hand uitgewerkt. Ik heb daadwerkelijke matrixvermenigvuldigingen gebruikt. Dit is de realiteit van hoe een transformer werkt.

Het proces begint met embeddings. Elk woord krijgt een willekeurige coördinaat. Bijvoorbeeld, het woord "love" begint misschien bij [0.10, 0.30]. Deze getallen betekenen in het begin niets.

Dan vindt attention plaats.

Neem de zin: "The dog chased the cat because it was fast."

Het model moet beslissen of "it" verwijst naar de hond of de kat. Het heeft geen grammatica-regels om te volgen. Het kijkt alleen naar eerdere woorden en wijst een score toe. Het vraagt zich af: "Hoeveel aandacht moet ik op dit moment aan jou besteden?"

Dit resulteert in een gewichtstabel.

Voor de sequentie [I, love, pizza]:

"love" geeft misschien 51% attention aan "I" en 49% aan zichzelf.
"pizza" kan het hele plaatje zien. Het verspreidt de attention over alle drie de woorden.

Dit is geen metafoor. Het woord "love" begint als één vector. Na attention wordt het een nieuwe vector. Het verandert fysiek van positie in de ruimte. Het absorbeert een deel van de vector van "I".

Het woord "love" in de context van "I" is een ander wiskundig punt dan "love" dat alleen staat. Context is simpelweg wiskunde die vectoren mengt.

Hoe leert het? Door minuscule verschuivingen.

Wanneer het model een foutieve voorspelling doet, zorgt backpropagation voor een kleine aanpassing van de gewichten. Deze veranderingen zijn klein. Een gewicht kan verschuiven van 0.400 naar 0.397.

Eén kleine verandering van 0.009 kan een voorspelling van fout naar goed doen omslaan. GPT-3 deed dit 300 miljard keer.

Dit creëert zero-shot generalisatie. Het model leert dat "You" en "I" wiskundig gezien vergelijkbaar zijn. Het voorspelt "love" na "You", zelfs als het dit specifieke paar nooit eerder heeft gezien. Dit doet het vanwege de geometrische nabijheid.

Het model leert nooit een regel. Het leert een richting.

Elk gewicht is een minuscuul kompasnaaldje. Training richt deze naaldjes zodat de geometrie nuttig wordt. Er is geen grammaticaboek. Er is alleen wiskunde.

Bron: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li

Optionele leercommunity: https://t.me/GyaanSetuAi

GPT heeft geen idee wat woorden betekenen

Continue reading

Hoe Transformers werken

𝗚𝗣𝗧 𝗗𝗼𝗲𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗬𝗼𝘂 𝗧𝗵𝗶𝗻𝗸

Hoe AI-modellen eigenlijk werken