让现代 AI 成为可能的三个想法

现代 AI 看起来像魔法。你输入一句话,机器就会写出回复。这感觉很玄奥。其实不然。

几乎每个模型背后的架构都建立在纯粹的工程改进之上。这些改进解决了特定的问题。没有什么秘密配方,只有三个关键的补丁。

  1. 跳跃连接 (Skip Connections)

大约在 2014 年,工程师们试图让神经网络变得更深。他们认为层数越多,效果越好。但他们错了。更深的网络往往表现更差,因为误差信号无法到达早期层。信号会萎缩到消失,或者发生爆炸。

跳跃连接解决了这个问题。你不再强迫每一层都改变输入,而是让输入“跳过”某些层。你将原始输入加回到输出中。

这实现了两件事:

  • 它让“无所作为”变得容易。如果某一层没有提供价值,输入就会原封不动地流过。
  • 它为误差信号创建了一条直接路径。信号获得了一条通往早期层的“快速通道”。
  1. 归一化 (Normalization)

随着数据在网络中传递,数值的规模会发生漂移。一层可能产生 0.01,而下一层可能产生 5000。当数值达到这些极端情况时,学习就会停止。

归一化平衡了数值的量级。它将数值重新中心化到零附近,并保持一致的规模。这允许你使用更高的学习率并大幅加快训练速度。它让数学运算得以持续进行。

  1. 注意力机制 (Attention)

旧模型一次只能读一个词。这既慢又容易遗忘。要将第一个词与最后一个词联系起来,信息必须经过中间的每一个词。到最后,开头的信息就丢失了。

注意力机制改变了这一点。不再按顺序阅读,而是让句子中的每个词同时观察其他所有词。无论距离多远,“it”这个词都可以直接观察它所指代的名词。

因为不再依赖特定的顺序,你可以同时处理所有内容。这使得训练既快速又高效。

Transformer 是将这三个想法堆叠在一起的结果。它使用包裹在跳跃连接中的注意力模块,并在中间进行归一化。

AI 不是巫术。它是人们发现某些环节出了问题,并用简单的数学将其修复的结果。

Source: https://dev.to/karthi_raman_02ec8161bda/three-ideas-made-modern-ai-possible-none-of-them-are-magic-ida

可选学习社区: https://t.me/GyaanSetuAi