𝗛𝗮𝗺𝗶𝗹𝘁𝗼𝗻-𝗝𝗮𝗰𝗼𝗯𝗶 𝗧𝗵𝗲𝗼𝗿𝘆 𝗟𝗶𝗻𝗸𝘀 𝗡𝗲𝘂𝗿𝗮𝗹 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲𝘀

ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ പലപ്പോഴും വെവ്വേറെ തന്ത്രങ്ങളുടെ ഒരു കൂട്ടം പോലെയാണ് തോന്നാറുള്ളത്.

ResNets skip connections ഉപയോഗിക്കുന്നു. Transformers attention ഉപയോഗിക്കുന്നു. RNNs recurrence ഉപയോഗിക്കുന്നു. ഓരോ മോഡലിനും അതിന്റേതായ നിയമങ്ങളും ഗണിതശാസ്ത്രവുമുണ്ട്. ഇത് വലിയ ചിത്രം മനസ്സിലാക്കാൻ പ്രയാസമുണ്ടാക്കുന്നു.

പുതിയ ഗവേഷണങ്ങൾ ഇത് മാറ്റുന്നു. ResNets, Transformers, RNNs എന്നിവ യഥാർത്ഥത്തിൽ ഒരേ ഗണിതശാസ്ത്ര വസ്തുവാണെന്ന് ഇത് കാണിച്ചുതരുന്നു. അവയെല്ലാം ഹാമിൽട്ടൺ-ജാക്കോബി സമവാക്യങ്ങൾ (Hamilton-Jacobi equations) പിന്തുടരുന്നു.

ഇത് എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത് എന്ന് നോക്കാം:

  • Gradient descent എന്നത് ഒരുതരം ഫിസിക്സ് പരിണാമമാണ് (physics evolution).
  • ഓരോ ട്രെയിനിംഗ് സ്റ്റെപ്പും വെയ്റ്റുകളെ (weights) ഒരു ദ്രാവകം പോലെ ചലിപ്പിക്കുന്നു.
  • ഡെപ്ത് (Depth), അറ്റൻഷൻ (attention), റിക്കറൻസ് (recurrence) എന്നിവ ഒരു കണക്കുകൂട്ടലിലെ ടൈം സ്റ്റെപ്പുകൾ (time steps) പോലെ പ്രവർത്തിക്കുന്നു.
  • ഒരു മോഡൽ എത്രത്തോളം സ്മൂത്ത് (smooth) അല്ലെങ്കിൽ സ്പാർസ് (sparse) ആകുന്നു എന്ന് ഒരു സിംഗിൾ പാരാമീറ്റർ നിയന്ത്രിക്കുന്നു.

ഈ സിദ്ധാന്തം നാല് വ്യത്യസ്ത മേഖലകളെ തമ്മിൽ ബന്ധിപ്പിക്കുന്നു: ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ, ട്രോപ്പിക്കൽ ആൽജിബ്ര (tropical algebra), PDEs, കോൺവെക്സ് ഒപ്റ്റിമൈസേഷൻ (convex optimization).

ഇത് നിങ്ങൾക്ക് എന്തുകൊണ്ട് പ്രധാനമാണ്?

നിലവിലെ ബെഞ്ച്മാർക്കുകൾ പ്രധാനമായും കൃത്യതയിൽ (accuracy) ആണ് ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത്. മോഡലുകൾ നിർമ്മിക്കുന്നതിനുള്ള ഒരു പുതിയ രീതിയാണ് ഈ ഫ്രെയിംവർക്ക് നിർദ്ദേശിക്കുന്നത്. വെറുതെ ലെയറുകൾ കൂട്ടിച്ചേർക്കുന്നതിന് പകരം, സ്മൂത്ത്നസ്സും (smoothness) സ്റ്റെബിലിറ്റിയും (stability) സന്തുലിതമാക്കാൻ നിങ്ങൾക്ക് ഗണിതം ക്രമീകരിക്കാം.

ഒരു മോഡൽ എത്രത്തോളം നന്നായി ജനറലൈസ് (generalize) ചെയ്യുമെന്ന് ഈ സിദ്ധാന്തം പ്രവചിക്കുന്നു. നിങ്ങൾക്ക് എത്രത്തോളം ഡാറ്റ ആവശ്യമാണ് എന്നതിനെ നിങ്ങളുടെ ആർക്കിടെക്ചറിൽ ഉപയോഗിക്കുന്ന പ്രത്യേക ഗണിതശാസ്ത്രവുമായി ഇത് ബന്ധിപ്പിക്കുന്നു.

ഇനിയും ചില പോരായ്മകളുണ്ട്. മിക്ക മോഡലുകളും ReLU ഉപയോഗിക്കുന്നു, എന്നാൽ ഈ ഗണിതം ഏറ്റവും നന്നായി പ്രവർത്തിക്കുന്നത് log-sum-exp ലെയറുകളിലാണ്. ഈ ഫിസിക്സ് നിയമങ്ങൾ പ്രകടനം മെച്ചപ്പെടുത്തുന്നുണ്ടോ എന്ന് കാണാൻ നമുക്ക് കൂടുതൽ റിയൽ വേൾഡ് ടെസ്റ്റുകൾ ആവശ്യമാണ്.

ആർക്കിടെക്ചറുകളെ വ്യത്യസ്ത തരം ലെയറുകളായി കാണുന്നത് നമ്മൾ നിർത്തണം. ഒരേ സമവാക്യം പരിഹരിക്കാനുള്ള വ്യത്യസ്ത വഴികളായി അവയെ കാണണം.

Source: https://dev.to/olaughter/hamilton-jacobi-view-links-major-neural-architectures-5hln

Optional learning community: https://t.me/GyaanSetuAi