深入浅出地讲解 Embedding

Machine-translated. Read the original.

📅3 hours ago⏱1 min read

简单解释 Embedding

计算机热爱数字，却厌恶意义。

对于计算机而言，“happy”和“joyful”这两个词仅仅是不同的字母组合。它们并不知道这两个词共享同一种情感。

Embedding 解决了这个问题。它们将单词转化为数字列表。这些数字就像是意义的 GPS 坐标。

当你将单词转化为数字时，含义相近的词会在数字地图中靠得很近。

向量（Vector）其实就是一个有序的数字列表。 “king” → [0.21, -0.44, 0.88] “queen” → [0.19, -0.41, 0.85]

真实的模型会为每个单词使用成千上万个这样的数字。你不需要看到所有的数字，你只需要知道两个点之间的距离有多近。

我们使用余弦相似度（cosine similarity）来衡量这种接近程度。

这会将意义转化为几何学。你甚至可以用单词进行数学运算。

如果你取“king”的向量，减去“man”，再加上“woman”，你就会落在“queen”附近。模型通过阅读数十亿个句子来学习这种模式。

这种数学原理驱动着你每天都在使用的 AI 工具：

你不需要自己计算这些数字。你只需将文本发送给模型，它就会返回向量。然后，你将这些向量存储在向量数据库中以便进行搜索。

Embedding 将语言的奥秘转化为了几何的逻辑。

尝试使用 Meaning Map 来查看单词是如何连接的：https://dev48v.infy.uk/ai/days/day3-embeddings.html

Continue reading