GPTは言葉の意味を全く理解していない
GPTは言語を理解しているのではない。数値を理解しているのだ。
多くの人はアテンション(attention)を比喩で説明する。矢印や光る接続などを用いるが、実際はそうではない。
私は手作業で数学的なプロセスを辿り、実際の行列演算を行った。これが、Transformerがどのように機能しているかという現実である。
プロセスは埋め込み(embeddings)から始まる。すべての単語にはランダムな座標が割り当てられる。例えば、「love」という単語は [0.10, 0.30] から始まるかもしれない。最初は、これらの数値には何の意味もない。
次に、アテンションが発生する。
次の文章を例に挙げる。「The dog chased the cat because it was fast.」
モデルは、「it」が犬を指しているのか、それとも猫を指しているのかを判断しなければならない。モデルには従うべき文法規則はない。ただ前の単語を見て、スコアを割り当てるだけだ。モデルはこう問いかける。「今、君に対してどれくらい注意を払うべきか?」
これにより、重みのテーブル(weight table)が作成される。
シーケンス [I, love, pizza] の場合:
- 「love」は「I」に51%、「自分自身」に49%のアテンションを向けるかもしれない。
- 「pizza」は全体像を把握できる。アテンションを3つの単語すべてに分散させる。
これは比喩ではない。「love」という単語は、最初は一つのベクトルとして始まる。アテンションを経た後、それは新しいベクトルになる。空間内での位置が物理的に変化するのだ。「I」のベクトルの一部を吸収する。
「I」という文脈における「love」は、単独で存在する「love」とは異なる数学的な点となる。文脈とは、単にベクトルを混合する数学的プロセスに過ぎない。
どうやって学習するのか? それは、ごくわずかな変化を通じてである。
モデルの予測が外れたとき、誤差逆伝播(backpropagation)が重みを微調整する。これらの変化は極めて小さい。重みが 0.400 から 0.397 へと動くようなものだ。
0.009というわずかな変化が、予測を間違いから正解へと覆すことがある。GPT-3はこれを3000億回繰り返した。
これがゼロショット汎化(zero-shot generalization)を生み出す。モデルは「You」と「I」が数学的に類似していることを学習する。たとえその特定の組み合わせを見たことがなくても、「You」の後に「love」が来ることを予測できる。これは幾何学的な近接性によるものだ。
モデルは決してルールを学習しない。学習するのは方向である。
すべての重みは、小さな方位磁針の針である。学習は、幾何学が有用になるようにこれらの針の向きを定める。文法書など存在しない。あるのは数学だけだ。
Source: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li
Optional learning community: https://t.me/GyaanSetuAi
