GPT Kelimelerin Ne Anlama Geldiğinin Farkında Bile Değil

GPT dili anlamaz. Sayıları anlar.

Çoğu insan attention mekanizmasını metaforlarla açıklar. Oklar veya parlayan bağlantılar kullanırlar. İşleyiş bu şekilde değildir.

Matematiği elle takip ettim. Gerçek matris çarpımları kullandım. İşte bir transformer'ın nasıl çalıştığının gerçekliği.

Süreç embedding'ler ile başlar. Her kelimeye rastgele bir koordinat atanır. Örneğin, "love" kelimesi [0.10, 0.30] noktasından başlayabilir. Bu sayılar başlangıçta hiçbir şey ifade etmez.

Sonra attention gerçekleşir.

Şu cümleyi ele alalım: "The dog chased the cat because it was fast."

Model, "it" kelimesinin köpeğe mi yoksa kediye mi atıfta bulunduğuna karar vermelidir. Takip edeceği dil bilgisi kuralları yoktur. Sadece önceki kelimelere bakar ve bir puan atar. Şunu sorar: "Şu anda sana ne kadar dikkat etmeliyim?"

Bu, bir ağırlık tablosuyla sonuçlanır.

[I, love, pizza] dizisi için:

  • "love" kelimesi, dikkatin %51'ini "I" kelimesine, %49'unu ise kendisine verebilir.
  • "pizza" tüm resmi görebilir. Dikkatini üç kelimenin tamamına yayar.

Bu bir metafor değildir. "love" kelimesi tek bir vektör olarak başlar. Attention işleminden sonra yeni bir vektör haline gelir. Uzaydaki konumunu fiziksel olarak değiştirir. "I" kelimesinden gelen vektörün bir kısmını emer.

"I" bağlamındaki "love" kelimesi, tek başına duran "love" kelimesinden farklı bir matematiksel noktadır. Bağlam, sadece vektörleri harmanlayan matematiktir.

Nasıl öğrenir? Küçük kaymalar sayesinde.

Model yanlış tahmin yaptığında, backpropagation ağırlıkları hafifçe iter. Bu değişiklikler küçüktür. Bir ağırlık 0.400'den 0.397'ye kayabilir.

0.009'luk tek bir küçük değişiklik, bir tahmini yanlıştan doğruya çevirebilir. GPT-3 bunu 3