نظرية هاميلتون-جاكوبي تربط بين المعماريات العصبية

غالبًا ما تبدو الشبكات العصبية وكأنها مجموعة من الحيل المنفصلة.

تستخدم ResNets اتصالات التخطي (skip connections). وتستخدم Transformers آلية الانتباه (attention). وتستخدم RNNs التكرار (recurrence). لكل نموذج قواعده ورياضياته الخاصة، مما يجعل من الصعب رؤية الصورة الكاملة.

يغير البحث الجديد هذا المفهوم؛ حيث يظهر أن ResNets وTransformers وRNNs هي في الواقع نفس الكائن الرياضي، وجميعها تتبع معادلات هاميلتون-جاكوبي.

إليك كيف يعمل ذلك:

  • نزول الاشتقاق (Gradient descent) هو نوع من التطور الفيزيائي.
  • كل خطوة تدريب تحرك الأوزان مثل السائل.
  • يعمل العمق والانتباه والتكرار كخطوات زمنية في عملية حسابية.
  • تتحكم معلمة (parameter) واحدة في مدى سلاسة أو ندرة النموذج.

تربط هذه النظرية بين أربعة مجالات مختلفة: الشبكات العصبية، والجبر الاستوائي (tropical algebra)، والمعادلات التفاضلية الجزئية (PDEs)، والتحسين المحدب (convex optimization).

لماذا يهمك هذا الأمر؟

تركز الاختبارات المرجعية (benchmarks) الحالية بشكل أساسي على الدقة. يقترح هذا الإطار طريقة جديدة لبناء النماذج؛ فبدلاً من مجرد إضافة الطبقات، يمكنك ضبط الرياضيات لتحقيق التوازن بين السلاسة والاستقرار.

تتنبأ النظرية أيضًا بمدى قدرة النموذج على التعميم (generalize). فهي تربط كمية البيانات التي تحتاجها بالرياضيات المحددة المستخدمة في معماريتك.

لا تزال هناك فجوات؛ فمعظم النماذج تستخدم ReLU، لكن هذه الرياضيات تعمل بشكل أفضل مع طبقات log-sum-exp. نحتاج أيضًا إلى المزيد من الاختبارات في العالم الحقيقي لمعرفة ما إذا كانت قواعد الفيزياء هذه تحسن الأداء.

يجب أن نتوقف عن النظر إلى المعماريات كأنواع مختلفة من الطبقات، بل يجب أن ننظر إليها كطرق مختلفة لحل المعادلة نفسها.

المصدر: https://dev.to/olaughter/hamilton-jacobi-view-links-major-neural-architectures-5hln

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi