让现代 AI 成为可能的三个想法
现代 AI 看起来像魔法。你输入一句话,机器就会写出回复。这感觉很玄奥。其实不然。
几乎每个模型背后的架构都建立在纯粹的工程改进之上。这些改进解决了特定的问题。没有什么秘密配方,只有三个关键的补丁。
- 跳跃连接 (Skip Connections)
大约在 2014 年,工程师们试图让神经网络变得更深。他们认为层数越多,效果越好。但他们错了。更深的网络往往表现更差,因为误差信号无法到达早期层。信号会萎缩到消失,或者发生爆炸。
跳跃连接解决了这个问题。你不再强迫每一层都改变输入,而是让输入“跳过”某些层。你将原始输入加回到输出中。
这实现了两件事:
- 它让“无所作为”变得容易。如果某一层没有提供价值,输入就会原封不动地流过。
- 它为误差信号创建了一条直接路径。信号获得了一条通往早期层的“快速通道”。
- 归一化 (Normalization)
随着数据在网络中传递,数值的规模会发生漂移。一层可能产生 0.01,而下一层可能产生 5000。当数值达到这些极端情况时,学习就会停止。
归一化平衡了数值的量级。它将数值重新中心化到零附近,并保持一致的规模。这允许你使用更高的学习率并大幅加快训练速度。它让数学运算得以持续进行。
- 注意力机制 (Attention)
旧模型一次只能读一个词。这既慢又容易遗忘。要将第一个词与最后一个词联系起来,信息必须经过中间的每一个词。到最后,开头的信息就丢失了。
注意力机制改变了这一点。不再按顺序阅读,而是让句子中的每个词同时观察其他所有词。无论距离多远,“it”这个词都可以直接观察它所指代的名词。
因为不再依赖特定的顺序,你可以同时处理所有内容。这使得训练既快速又高效。
Transformer 是将这三个想法堆叠在一起的结果。它使用包裹在跳跃连接中的注意力模块,并在中间进行归一化。
AI 不是巫术。它是人们发现某些环节出了问题,并用简单的数学将其修复的结果。
可选学习社区: https://t.me/GyaanSetuAi