AI 模型究竟是如何运作的

Translated for your language. 阅读原文.

AI-assisted draft.

3小时前2分钟阅读

AI 模型究竟是如何工作的

你使用 AI 来写邮件或修复代码。大多数人称之为算法。他们并不了解其工作原理。即使数学原理很复杂，其过程也易于理解。

核心思想是预测。

如果你输入“The cat sat on the,”，模型会预测下一个词。它会选择“mat”，因为这个词出现的概率很高。它通过逐词重复这个循环来构建完整的句子。为了准确预测单词，模型会学习语法、事实和逻辑。

以下是四个步骤：

Token (标记) 模型并不阅读单词，而是阅读数字。它们将文本分解成被称为 token 的小块。每个 token 都会变成一组数字列表。在每一次对话的背后，都是大规模的数学运算。
训练 (Training) 训练是模型学习的方式。你向它展示来自书籍和网站的数十亿页内容。模型预测一个 token 并检查答案。如果错了，系统就会调整其内部设置。它会进行数万亿次这样的操作。没有人为它编写规则，模型会自行寻找模式。
注意力机制 (Attention) 这有助于模型理解上下文。在句子“The trophy did not fit in the suitcase because it was too big”中，“it”指的是奖杯。注意力机制会告诉模型哪些先前的词最为重要。这使得模型能够追踪长段落中的含义。
微调 (Fine-tuning) 原始模型仅仅是预测引擎。微调教会它们成为助手。人类会对答案进行评分。模型会根据这些评分学习如何提供有帮助且安全的回答。

当你按下发送键时会发生什么？

你的文本会转化为数字。这些数字通过层层数学运算。模型计算下一个 token 的概率。它选择一个 token 并重复此过程，直到回复完成。这一切都在几秒钟内发生。

AI 并非魔法。它是在大规模尺度上的预测。了解这一点会让你成为该工具更出色的使用者。

继续阅读