GPTは言葉の意味を全く理解していない

Translated for your language. 原文を読む.

AI-assisted draft.

GyaanSetu Editorial2 週間前2分で読めます

GPTは言語を理解しているのではない。数値を理解しているのだ。

多くの人はアテンション（attention）を比喩で説明する。矢印や光る接続などを用いるが、実際はそうではない。

私は手作業で数学的なプロセスを辿り、実際の行列演算を行った。これが、Transformerがどのように機能しているかという現実である。

プロセスは埋め込み（embeddings）から始まる。すべての単語にはランダムな座標が割り当てられる。例えば、「love」という単語は [0.10, 0.30] から始まるかもしれない。最初は、これらの数値には何の意味もない。

次に、アテンションが発生する。

次の文章を例に挙げる。「The dog chased the cat because it was fast.」

モデルは、「it」が犬を指しているのか、それとも猫を指しているのかを判断しなければならない。モデルには従うべき文法規則はない。ただ前の単語を見て、スコアを割り当てるだけだ。モデルはこう問いかける。「今、君に対してどれくらい注意を払うべきか？」

これにより、重みのテーブル（weight table）が作成される。

シーケンス [I, love, pizza] の場合：

これは比喩ではない。「love」という単語は、最初は一つのベクトルとして始まる。アテンションを経た後、それは新しいベクトルになる。空間内での位置が物理的に変化するのだ。「I」のベクトルの一部を吸収する。

「I」という文脈における「love」は、単独で存在する「love」とは異なる数学的な点となる。文脈とは、単にベクトルを混合する数学的プロセスに過ぎない。

どうやって学習するのか？それは、ごくわずかな変化を通じてである。

モデルの予測が外れたとき、誤差逆伝播（backpropagation）が重みを微調整する。これらの変化は極めて小さい。重みが 0.400 から 0.397 へと動くようなものだ。

0.009というわずかな変化が、予測を間違いから正解へと覆すことがある。GPT-3はこれを3000億回繰り返した。

これがゼロショット汎化（zero-shot generalization）を生み出す。モデルは「You」と「I」が数学的に類似していることを学習する。たとえその特定の組み合わせを見たことがなくても、「You」の後に「love」が来ることを予測できる。これは幾何学的な近接性によるものだ。

モデルは決してルールを学習しない。学習するのは方向である。

すべての重みは、小さな方位磁針の針である。学習は、幾何学が有用になるようにこれらの針の向きを定める。文法書など存在しない。あるのは数学だけだ。

Optional learning community: https://t.me/GyaanSetuAi

続きを読む