GPT no tiene idea de lo que significan las palabras

Translated for your language. Leer el original.

AI-assisted draft.

GyaanSetu Editorialhace 2 semanas2min de lectura

GPT no tiene idea de lo que significan las palabras

GPT no entiende el lenguaje. Entiende números.

La mayoría de la gente explica la atención con metáforas. Usan flechas o conexiones brillantes. Así no es como funciona.

Seguí las matemáticas a mano. Utilicé multiplicaciones de matrices reales. Esta es la realidad de cómo funciona un transformer.

El proceso comienza con embeddings. Cada palabra recibe una coordenada aleatoria. Por ejemplo, la palabra "love" podría empezar en [0.10, 0.30]. Estos números no significan nada al principio.

Luego ocurre la atención.

Toma la frase: "The dog chased the cat because it was fast."

El modelo debe decidir si "it" se refiere al perro o al gato. No tiene reglas gramaticales que seguir. Solo observa las palabras anteriores y asigna una puntuación. Se pregunta: "¿Cuánta atención debería prestarte ahora mismo?"

Esto da como resultado una tabla de pesos.

Para la secuencia [I, love, pizza]:

"love" podría dar un 51% de atención a "I" y un 49% a sí misma.
"pizza" puede ver el panorama completo. Distribuye la atención entre las tres palabras.

Esto no es una metáfora. La palabra "love" comienza como un vector. Después de la atención, se convierte en un nuevo vector. Cambia físicamente su posición en el espacio. Absorbe parte del vector de "I".

La palabra "love" en el contexto de "I" es un punto matemático diferente a "love" por sí sola. El contexto es simplemente matemáticas mezclando vectores.

¿Cómo aprende? A través de pequeños cambios.

Cuando el modelo predice incorrectamente, el backpropagation ajusta ligeramente los pesos. Estos cambios son pequeños. Un peso podría moverse de 0.400 a 0.397.

Un pequeño cambio de 0.009 puede cambiar una predicción de incorrecta a correcta. GPT-3 hizo esto 300 mil millones de veces.

Esto crea la generalización zero-shot. El modelo aprende que "You" e "I" son matemáticamente similares. Predice "love" después de "You" incluso si nunca vio ese par específico. Lo hace debido a la proximidad geométrica.

El modelo nunca aprende una regla. Aprende una dirección.

Cada peso es la aguja de una pequeña brújula. El entrenamiento orienta estas agujas para que la geometría sea útil. No hay un libro de gramática. Solo hay matemáticas.

Fuente: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi

GPT no tiene idea de lo que significan las palabras

Seguir leyendo

Cómo funcionan los Transformers

𝗚𝗣𝗧 𝗗𝗼𝗲𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗬𝗼𝘂 𝗧𝗵𝗶𝗻𝗸

𝗛𝗼𝘄 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗔𝗰𝘁𝘂𝗮𝗹𝗹𝘆 𝗪𝗼𝗿𝗸