让现代人工智能成为可能的三个核心理念

Translated for your language. 阅读原文.

AI-assisted draft.

让现代 AI 成为可能的三个想法

现代 AI 看起来像魔法。你输入一句话，机器就会写出回复。这感觉很玄奥。其实不然。

几乎每个模型背后的架构都建立在纯粹的工程改进之上。这些改进解决了特定的问题。没有什么秘密配方，只有三个关键的补丁。

大约在 2014 年，工程师们试图让神经网络变得更深。他们认为层数越多，效果越好。但他们错了。更深的网络往往表现更差，因为误差信号无法到达早期层。信号会萎缩到消失，或者发生爆炸。

跳跃连接解决了这个问题。你不再强迫每一层都改变输入，而是让输入“跳过”某些层。你将原始输入加回到输出中。

这实现了两件事：

随着数据在网络中传递，数值的规模会发生漂移。一层可能产生 0.01，而下一层可能产生 5000。当数值达到这些极端情况时，学习就会停止。

归一化平衡了数值的量级。它将数值重新中心化到零附近，并保持一致的规模。这允许你使用更高的学习率并大幅加快训练速度。它让数学运算得以持续进行。

旧模型一次只能读一个词。这既慢又容易遗忘。要将第一个词与最后一个词联系起来，信息必须经过中间的每一个词。到最后，开头的信息就丢失了。

注意力机制改变了这一点。不再按顺序阅读，而是让句子中的每个词同时观察其他所有词。无论距离多远，“it”这个词都可以直接观察它所指代的名词。

因为不再依赖特定的顺序，你可以同时处理所有内容。这使得训练既快速又高效。

Transformer 是将这三个想法堆叠在一起的结果。它使用包裹在跳跃连接中的注意力模块，并在中间进行归一化。

AI 不是巫术。它是人们发现某些环节出了问题，并用简单的数学将其修复的结果。

继续阅读