GPT hat keine Ahnung, was Wörter bedeuten
GPT versteht keine Sprache. Es versteht Zahlen.
Die meisten Menschen erklären Attention mit Metaphern. Sie verwenden Pfeile oder leuchtende Verbindungen. So funktioniert es jedoch nicht.
Ich habe die Mathematik von Hand nachgezeichnet. Ich habe tatsächliche Matrixmultiplikationen verwendet. Hier ist die Realität, wie ein Transformer funktioniert.
Der Prozess beginnt mit Embeddings. Jedes Wort erhält eine zufällige Koordinate. Zum Beispiel könnte das Wort „love“ bei [0.10, 0.30] beginnen. Diese Zahlen bedeuten anfangs gar nichts.
Dann findet Attention statt.
Nehmen wir den Satz: „The dog chased the cat because it was fast.“
Das Modell muss entscheiden, ob sich „it“ auf den Hund oder die Katze bezieht. Es hat keine Grammatikregeln, denen es folgen könnte. Es schaut sich nur die vorherigen Wörter an und weist eine Punktzahl zu. Es fragt: „Wie viel Aufmerksamkeit sollte ich dir gerade schenken?“
Dies führt zu einer Gewichtungstabelle.
Für die Sequenz [I, love, pizza]:
- „love“ könnte 51 % der Aufmerksamkeit auf „I“ und 49 % auf sich selbst richten.
- „pizza“ kann das Gesamtbild sehen. Es verteilt die Aufmerksamkeit auf alle drei Wörter.
Das ist keine Metapher. Das Wort „love“ beginnt als ein Vektor. Nach der Attention wird es zu einem neuen Vektor. Es verändert physisch seine Position im Raum. Es absorbiert einen Teil des Vektors von „I“.
Das Wort „love“ im Kontext von „I“ ist ein anderer mathematischer Punkt als „love“ alleinstehend. Kontext ist lediglich Mathematik, die Vektoren vermischt.
Wie lernt es? Durch winzige Verschiebungen.
Wenn das Modell falsch vorhersagt, korrigiert Backpropagation die Gewichte. Diese Änderungen sind klein. Ein Gewicht könnte sich von 0,400 auf 0,397 bewegen.
Eine winzige Änderung von 0,009 kann eine Vorhersage von falsch zu richtig drehen. GPT-3 hat dies 300 Milliarden Mal getan.
Dies ermöglicht Zero-Shot-Generalisierung. Das Modell lernt, dass „You“ und „I“ mathematisch ähnlich sind. Es sagt „love“ nach „You“ voraus, selbst wenn es dieses spezifische Paar noch nie gesehen hat. Es tut dies aufgrund der geometrischen Nähe.
Das Modell lernt nie eine Regel. Es lernt eine Richtung.
Jedes Gewicht ist eine winzige Kompassnadel. Das Training richtet diese Nadeln so aus, dass die Geometrie nützlich wird. Es gibt kein Grammatikbuch. Es gibt nur Mathematik.
Source: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li
Optional learning community: https://t.me/GyaanSetuAi
