Hamilton-Jacobi 理论连接了神经网络架构
神经网络通常感觉像是各种独立技巧的集合。
ResNets 使用跳跃连接(skip connections)。Transformers 使用注意力机制(attention)。RNNs 使用循环机制(recurrence)。每个模型都有其自身的规则和数学逻辑。这使得人们很难看到全局图景。
新的研究改变了这一点。它表明 ResNets、Transformers 和 RNNs 实际上是同一种数学对象。它们都遵循 Hamilton-Jacobi 方程。
其工作原理如下:
- 梯度下降是一种物理演化。
- 每个训练步骤都像流体一样移动权重。
- 深度、注意力和循环机制在计算中扮演着时间步的角色。
- 单个参数控制着模型的平滑度或稀疏度。
该理论连接了四个不同的领域:神经网络、热带代数(tropical algebra)、偏微分方程(PDEs)和凸优化(convex optimization)。
这对你有什么意义?
目前的基准测试主要关注准确率。该框架提出了一种构建模型的新方法。你不再仅仅是增加层数,而是可以通过调整数学逻辑来平衡平滑度与稳定性。
该理论还能预测模型的泛化能力。它将所需的数据量与架构中所使用的特定数学方法联系了起来。
目前仍存在差距。大多数模型使用 ReLU,但这种数学方法在配合 log-sum-exp 层时效果最好。我们还需要更多的现实世界测试,以验证这些物理规则是否能提升性能。
我们不应再将架构视为不同类型的层,而应将其视为求解同一方程的不同方式。
Source: https://dev.to/olaughter/hamilton-jacobi-view-links-major-neural-architectures-5hln
Optional learning community: https://t.me/GyaanSetuAi