哈密顿-雅可比理论联系神经网络架构

Translated for your language. 阅读原文.

AI-assisted draft.

4天前1分钟阅读

Hamilton-Jacobi 理论连接了神经网络架构

神经网络通常感觉像是各种独立技巧的集合。

ResNets 使用跳跃连接（skip connections）。Transformers 使用注意力机制（attention）。RNNs 使用循环机制（recurrence）。每个模型都有其自身的规则和数学逻辑。这使得人们很难看到全局图景。

新的研究改变了这一点。它表明 ResNets、Transformers 和 RNNs 实际上是同一种数学对象。它们都遵循 Hamilton-Jacobi 方程。

其工作原理如下：

该理论连接了四个不同的领域：神经网络、热带代数（tropical algebra）、偏微分方程（PDEs）和凸优化（convex optimization）。

这对你有什么意义？

目前的基准测试主要关注准确率。该框架提出了一种构建模型的新方法。你不再仅仅是增加层数，而是可以通过调整数学逻辑来平衡平滑度与稳定性。

该理论还能预测模型的泛化能力。它将所需的数据量与架构中所使用的特定数学方法联系了起来。

目前仍存在差距。大多数模型使用 ReLU，但这种数学方法在配合 log-sum-exp 层时效果最好。我们还需要更多的现实世界测试，以验证这些物理规则是否能提升性能。

我们不应再将架构视为不同类型的层，而应将其视为求解同一方程的不同方式。

Optional learning community: https://t.me/GyaanSetuAi

继续阅读