GPT non ha idea di cosa significhino le parole

GPT non capisce il linguaggio. Capisce i numeri.

La maggior parte delle persone spiega l'attenzione con delle metafore. Usano frecce o connessioni luminose. Non funziona così.

Ho tracciato la matematica a mano. Ho usato vere moltiplicazioni di matrici. Ecco la realtà di come funziona un transformer.

Il processo inizia con gli embedding. Ogni parola riceve una coordinata casuale. Ad esempio, la parola "amore" potrebbe iniziare a [0.10, 0.30]. All'inizio, questi numeri non significano nulla.

Poi avviene l'attenzione.

Prendiamo la frase: "Il cane ha inseguito il gatto perché era veloce."

Il modello deve decidere se "era" si riferisca al cane o al gatto. Non ha regole grammaticali da seguire. Guarda solo le parole precedenti e assegna un punteggio. Si chiede: "Quanta attenzione dovrei prestarti proprio ora?"

Questo produce una tabella dei pesi.

Per la sequenza [io, amo, pizza]:

  • "amo" potrebbe dare il 51% di attenzione a "io" e il 49% a se stessa.
  • "pizza" può vedere il quadro completo. Distribuisce l'attenzione su tutte e tre le parole.

Questa non è una metafora. La parola "amore" inizia come un vettore. Dopo l'attenzione, diventa un nuovo vettore. Cambia fisicamente la sua posizione nello spazio. Assorbe parte del vettore di "io".

La parola "amore" nel contesto di "io" è un punto matematico diverso rispetto a "amore" da sola. Il contesto è solo matematica che fonde i vettori.

Come impara? Attraverso minuscoli spostamenti.

Quando il modello sbaglia la previsione, la backpropagation sposta leggermente i pesi. Questi cambiamenti sono piccoli. Un peso potrebbe passare da 0.400 a 0.397.

Un minuscolo cambiamento di 0.009 può trasformare una previsione da errata a corretta. GPT-3 lo ha fatto 300 miliardi di volte.

Questo crea la generalizzazione zero-shot. Il modello impara che "Tu" e "Io" sono matematicamente simili. Prevede "amo" dopo "Tu" anche se non ha mai visto quella coppia specifica. Lo fa grazie alla vicinanza geometrica.

Il modello non impara mai una regola. Impara una direzione.

Ogni peso è un minuscolo ago di una bussola. L'addestramento orienta questi aghi in modo che la geometria diventi utile. Non esiste un libro di grammatica. Esiste solo la matematica.

Fonte: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li

Community di apprendimento opzionale: https://t.me/GyaanSetuAi