GPT no tiene idea de lo que significan las palabras

GPT no entiende el lenguaje. Entiende números.

La mayoría de la gente explica la atención con metáforas. Usan flechas o conexiones brillantes. Así no es como funciona.

Seguí las matemáticas a mano. Utilicé multiplicaciones de matrices reales. Esta es la realidad de cómo funciona un transformer.

El proceso comienza con embeddings. Cada palabra recibe una coordenada aleatoria. Por ejemplo, la palabra "love" podría empezar en [0.10, 0.30]. Estos números no significan nada al principio.

Luego ocurre la atención.

Toma la frase: "The dog chased the cat because it was fast."

El modelo debe decidir si "it" se refiere al perro o al gato. No tiene reglas gramaticales que seguir. Solo observa las palabras anteriores y asigna una puntuación. Se pregunta: "¿Cuánta atención debería prestarte ahora mismo?"

Esto da como resultado una tabla de pesos.

Para la secuencia [I, love, pizza]:

  • "love" podría dar un 51% de atención a "I" y un 49% a sí misma.
  • "pizza" puede ver el panorama completo. Distribuye la atención entre las tres palabras.

Esto no es una metáfora. La palabra "love" comienza como un vector. Después de la atención, se convierte en un nuevo vector. Cambia físicamente su posición en el espacio. Absorbe parte del vector de "I".

La palabra "love" en el contexto de "I" es un punto matemático diferente a "love" por sí sola. El contexto es simplemente matemáticas mezclando vectores.

¿Cómo aprende? A través de pequeños cambios.

Cuando el modelo predice incorrectamente, el backpropagation ajusta ligeramente los pesos. Estos cambios son pequeños. Un peso podría moverse de 0.400 a 0.397.

Un pequeño cambio de 0.009 puede cambiar una predicción de incorrecta a correcta. GPT-3 hizo esto 300 mil millones de veces.

Esto crea la generalización zero-shot. El modelo aprende que "You" e "I" son matemáticamente similares. Predice "love" después de "You" incluso si nunca vio ese par específico. Lo hace debido a la proximidad geométrica.

El modelo nunca aprende una regla. Aprende una dirección.

Cada peso es la aguja de una pequeña brújula. El entrenamiento orienta estas agujas para que la geometría sea útil. No hay un libro de gramática. Solo hay matemáticas.

Fuente: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi