让 AI 成为可能的三个想法

现代 AI 看起来像魔法。你输入一句话,机器就会回写。这感觉很不可思议。

事实并非如此。

现代 AI 之所以存在,是因为工程师解决了特定的问题。他们发现了损坏的网络并对其进行了修复。

以下是构建 Transformer 的三个工程修复方案。

  1. 跳跃连接 (Skip Connections)

2014 年,研究人员试图让神经网络变得更深。他们认为层数越多,效果越好。但失败了。更深的网络性能反而更差。

用于训练网络的误差信号在经过许多层时,会萎缩到消失,或者发生爆炸。早期层接收不到任何有用的反馈。

修复方法很简单。与其强迫每一层都改变输入,不如让输入直接跳过去。

在 ResNet 模块中,你将原始输入加回到输出中。这为信号传输创建了一条直接路径。增加更多层不再会破坏系统。如果某一层没有帮助,它只需原封不动地传递输入即可。

  1. 归一化 (Normalization)

当数据在网络中流动时,数值会发生漂移。一层可能输出 0.01,而下一层却输出 5000。当数值达到这些极端情况时,学习就会停止。

归一化通过平衡数值量级来解决这个问题。它将数值重新中心化到零附近,并将其缩放到一个一致的范围内。

这保持了数学计算的稳定性。它允许你使用更高的学习率并进行更快的训练。这是一个实用的修复方案,节省了无数的调试时间。

  1. 注意力机制 (Attention)

旧模型一次只能读取一个单词。这样做很慢,因为无法并行处理单词。它还容易“健忘”,因为当模型读到句子末尾时,已经丢失了句首的信息。

注意力机制改变了这一点。它不再按顺序读取,而是让句子中的每个单词同时观察其他所有单词。

单词“it”可以直接与其指代的名词建立联系,无论两者相距多远。由于单词不再依赖于特定的序列,你可以使用 GPU 同时计算所有内容。

Transformer 结合了这三者。它使用被跳跃连接包裹的注意力模块,并在其中间加入归一化。

AI 并不需要对智能理解上的突破。它只需要针对损坏系统进行的三个聪明的修复方案。

来源:https://dev.to/karthi_raman_02ec8161bda0/three-ideas-made-modern-ai-possible-none-of-them-are-magic-523i

可选学习社区:https://t.me/GyaanSetuAi