让人工智能成为可能的三个想法

Translated for your language. 阅读原文.

AI-assisted draft.

让 AI 成为可能的三个想法

现代 AI 看起来像魔法。你输入一句话，机器就会回写。这感觉很不可思议。

事实并非如此。

现代 AI 之所以存在，是因为工程师解决了特定的问题。他们发现了损坏的网络并对其进行了修复。

以下是构建 Transformer 的三个工程修复方案。

2014 年，研究人员试图让神经网络变得更深。他们认为层数越多，效果越好。但失败了。更深的网络性能反而更差。

用于训练网络的误差信号在经过许多层时，会萎缩到消失，或者发生爆炸。早期层接收不到任何有用的反馈。

修复方法很简单。与其强迫每一层都改变输入，不如让输入直接跳过去。

在 ResNet 模块中，你将原始输入加回到输出中。这为信号传输创建了一条直接路径。增加更多层不再会破坏系统。如果某一层没有帮助，它只需原封不动地传递输入即可。

当数据在网络中流动时，数值会发生漂移。一层可能输出 0.01，而下一层却输出 5000。当数值达到这些极端情况时，学习就会停止。

归一化通过平衡数值量级来解决这个问题。它将数值重新中心化到零附近，并将其缩放到一个一致的范围内。

这保持了数学计算的稳定性。它允许你使用更高的学习率并进行更快的训练。这是一个实用的修复方案，节省了无数的调试时间。

旧模型一次只能读取一个单词。这样做很慢，因为无法并行处理单词。它还容易“健忘”，因为当模型读到句子末尾时，已经丢失了句首的信息。

注意力机制改变了这一点。它不再按顺序读取，而是让句子中的每个单词同时观察其他所有单词。

单词“it”可以直接与其指代的名词建立联系，无论两者相距多远。由于单词不再依赖于特定的序列，你可以使用 GPU 同时计算所有内容。

Transformer 结合了这三者。它使用被跳跃连接包裹的注意力模块，并在其中间加入归一化。

AI 并不需要对智能理解上的突破。它只需要针对损坏系统进行的三个聪明的修复方案。

继续阅读