𝗟𝗮 𝘁𝗲𝗼𝗿í𝗮 𝗱𝗲 𝗛𝗮𝗺𝗶𝗹𝘁𝗼𝗻-𝗝𝗮𝗰𝗼𝗯𝗶 𝘃𝗶𝗻𝗰𝘂𝗹𝗮 𝗹𝗮𝘀 𝗮𝗿𝗾𝘂𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗮𝘀 𝗻𝗲𝘂𝗿𝗼𝗻𝗮𝗹𝗲𝘀

Las redes neuronales a menudo parecen una colección de trucos aislados.

Las ResNets usan conexiones de salto (skip connections). Los Transformers usan atención. Las RNN usan recurrencia. Cada modelo tiene sus propias reglas y matemáticas. Esto dificulta ver el panorama general.

Nuevas investigaciones cambian esto. Demuestran que las ResNets, los Transformers y las RNN son, en realidad, el mismo objeto matemático. Todos siguen las ecuaciones de Hamilton-Jacobi.

Así es como funciona:

  • El descenso de gradiente es un tipo de evolución física.
  • Cada paso de entrenamiento mueve los pesos como un fluido.
  • La profundidad, la atención y la recurrencia actúan como pasos temporales en un cálculo.
  • Un único parámetro controla qué tan suave o disperso se vuelve un modelo.

Esta teoría conecta cuatro campos diferentes: redes neuronales, álgebra tropical, EDP y optimización convexa.

¿Por qué es esto importante para ti?

Los benchmarks actuales se centran principalmente en la precisión. Este marco de trabajo sugiere una nueva forma de construir modelos. En lugar de simplemente añadir capas, puedes ajustar las matemáticas para equilibrar la suavidad y la estabilidad.

La teoría también predice qué tan bien generalizará un modelo. Vincula la cantidad de datos que necesitas con las matemáticas específicas utilizadas en tu arquitectura.

Aún existen brechas. La mayoría de los modelos usan ReLU, pero estas matemáticas funcionan mejor con capas log-sum-exp. También necesitamos más pruebas en el mundo real para ver si estas reglas físicas mejoran el rendimiento.

Deberíamos dejar de ver las arquitecturas como diferentes tipos de capas. Deberíamos verlas como diferentes formas de resolver la misma ecuación.

Fuente: https://dev.to/olaughter/hamilton-jacobi-view-links-major-neural-architectures-5hln

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi