让 AI 成为可能的三个想法
现代 AI 看起来像魔法。你输入一句话,机器就会回写。这感觉很不可思议。
事实并非如此。
现代 AI 之所以存在,是因为工程师解决了特定的问题。他们发现了损坏的网络并对其进行了修复。
以下是构建 Transformer 的三个工程修复方案。
- 跳跃连接 (Skip Connections)
2014 年,研究人员试图让神经网络变得更深。他们认为层数越多,效果越好。但失败了。更深的网络性能反而更差。
用于训练网络的误差信号在经过许多层时,会萎缩到消失,或者发生爆炸。早期层接收不到任何有用的反馈。
修复方法很简单。与其强迫每一层都改变输入,不如让输入直接跳过去。
在 ResNet 模块中,你将原始输入加回到输出中。这为信号传输创建了一条直接路径。增加更多层不再会破坏系统。如果某一层没有帮助,它只需原封不动地传递输入即可。
- 归一化 (Normalization)
当数据在网络中流动时,数值会发生漂移。一层可能输出 0.01,而下一层却输出 5000。当数值达到这些极端情况时,学习就会停止。
归一化通过平衡数值量级来解决这个问题。它将数值重新中心化到零附近,并将其缩放到一个一致的范围内。
这保持了数学计算的稳定性。它允许你使用更高的学习率并进行更快的训练。这是一个实用的修复方案,节省了无数的调试时间。
- 注意力机制 (Attention)
旧模型一次只能读取一个单词。这样做很慢,因为无法并行处理单词。它还容易“健忘”,因为当模型读到句子末尾时,已经丢失了句首的信息。
注意力机制改变了这一点。它不再按顺序读取,而是让句子中的每个单词同时观察其他所有单词。
单词“it”可以直接与其指代的名词建立联系,无论两者相距多远。由于单词不再依赖于特定的序列,你可以使用 GPU 同时计算所有内容。
Transformer 结合了这三者。它使用被跳跃连接包裹的注意力模块,并在其中间加入归一化。
AI 并不需要对智能理解上的突破。它只需要针对损坏系统进行的三个聪明的修复方案。
可选学习社区:https://t.me/GyaanSetuAi