AI 模型究竟是如何工作的
你使用 AI 来写邮件或修复代码。大多数人称之为算法。他们并不了解其工作原理。即使数学原理很复杂,其过程也易于理解。
核心思想是预测。
如果你输入“The cat sat on the,”,模型会预测下一个词。它会选择“mat”,因为这个词出现的概率很高。它通过逐词重复这个循环来构建完整的句子。为了准确预测单词,模型会学习语法、事实和逻辑。
以下是四个步骤:
Token (标记) 模型并不阅读单词,而是阅读数字。它们将文本分解成被称为 token 的小块。每个 token 都会变成一组数字列表。在每一次对话的背后,都是大规模的数学运算。
训练 (Training) 训练是模型学习的方式。你向它展示来自书籍和网站的数十亿页内容。模型预测一个 token 并检查答案。如果错了,系统就会调整其内部设置。它会进行数万亿次这样的操作。没有人为它编写规则,模型会自行寻找模式。
注意力机制 (Attention) 这有助于模型理解上下文。在句子“The trophy did not fit in the suitcase because it was too big”中,“it”指的是奖杯。注意力机制会告诉模型哪些先前的词最为重要。这使得模型能够追踪长段落中的含义。
微调 (Fine-tuning) 原始模型仅仅是预测引擎。微调教会它们成为助手。人类会对答案进行评分。模型会根据这些评分学习如何提供有帮助且安全的回答。
当你按下发送键时会发生什么?
你的文本会转化为数字。这些数字通过层层数学运算。模型计算下一个 token 的概率。它选择一个 token 并重复此过程,直到回复完成。这一切都在几秒钟内发生。
AI 并非魔法。它是在大规模尺度上的预测。了解这一点会让你成为该工具更出色的使用者。
来源:https://dev.to/rameshkumarramu/ai-models-how-do-they-actually-work-2kmm
可选学习社区:https://t.me/GyaanSetuAi