𝗛𝗮𝗺𝗶𝗹𝘁𝗼𝗻 𝗝𝗮𝗰𝗼𝗯𝗶 𝗧𝗵𝗲𝗼𝗿𝘆 𝗟𝗶𝗻𝗸𝘀 𝗡𝗲𝘂𝗿𝗮𝗹 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲𝘀

Translated for your language. Read the original.

AI-assisted draft.

4 ദിവസം മുമ്പ്1min read

𝗛𝗮𝗺𝗶𝗹𝘁𝗼𝗻-𝗝𝗮𝗰𝗼𝗯𝗶 𝗧𝗵𝗲𝗼𝗿𝘆 𝗟𝗶𝗻𝗸𝘀 𝗡𝗲𝘂𝗿𝗮𝗹 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲𝘀

ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ പലപ്പോഴും വെവ്വേറെ തന്ത്രങ്ങളുടെ ഒരു കൂട്ടം പോലെയാണ് തോന്നാറുള്ളത്.

ResNets skip connections ഉപയോഗിക്കുന്നു. Transformers attention ഉപയോഗിക്കുന്നു. RNNs recurrence ഉപയോഗിക്കുന്നു. ഓരോ മോഡലിനും അതിന്റേതായ നിയമങ്ങളും ഗണിതശാസ്ത്രവുമുണ്ട്. ഇത് വലിയ ചിത്രം മനസ്സിലാക്കാൻ പ്രയാസമുണ്ടാക്കുന്നു.

പുതിയ ഗവേഷണങ്ങൾ ഇത് മാറ്റുന്നു. ResNets, Transformers, RNNs എന്നിവ യഥാർത്ഥത്തിൽ ഒരേ ഗണിതശാസ്ത്ര വസ്തുവാണെന്ന് ഇത് കാണിച്ചുതരുന്നു. അവയെല്ലാം ഹാമിൽട്ടൺ-ജാക്കോബി സമവാക്യങ്ങൾ (Hamilton-Jacobi equations) പിന്തുടരുന്നു.

ഇത് എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത് എന്ന് നോക്കാം:

Gradient descent എന്നത് ഒരുതരം ഫിസിക്സ് പരിണാമമാണ് (physics evolution).
ഓരോ ട്രെയിനിംഗ് സ്റ്റെപ്പും വെയ്റ്റുകളെ (weights) ഒരു ദ്രാവകം പോലെ ചലിപ്പിക്കുന്നു.
ഡെപ്ത് (Depth), അറ്റൻഷൻ (attention), റിക്കറൻസ് (recurrence) എന്നിവ ഒരു കണക്കുകൂട്ടലിലെ ടൈം സ്റ്റെപ്പുകൾ (time steps) പോലെ പ്രവർത്തിക്കുന്നു.
ഒരു മോഡൽ എത്രത്തോളം സ്മൂത്ത് (smooth) അല്ലെങ്കിൽ സ്പാർസ് (sparse) ആകുന്നു എന്ന് ഒരു സിംഗിൾ പാരാമീറ്റർ നിയന്ത്രിക്കുന്നു.

ഈ സിദ്ധാന്തം നാല് വ്യത്യസ്ത മേഖലകളെ തമ്മിൽ ബന്ധിപ്പിക്കുന്നു: ന്യൂറൽ നെറ്റ്‌വർക്കുകൾ, ട്രോപ്പിക്കൽ ആൽജിബ്ര (tropical algebra), PDEs, കോൺവെക്സ് ഒപ്റ്റിമൈസേഷൻ (convex optimization).

ഇത് നിങ്ങൾക്ക് എന്തുകൊണ്ട് പ്രധാനമാണ്?

നിലവിലെ ബെഞ്ച്മാർക്കുകൾ പ്രധാനമായും കൃത്യതയിൽ (accuracy) ആണ് ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നത്. മോഡലുകൾ നിർമ്മിക്കുന്നതിനുള്ള ഒരു പുതിയ രീതിയാണ് ഈ ഫ്രെയിംവർക്ക് നിർദ്ദേശിക്കുന്നത്. വെറുതെ ലെയറുകൾ കൂട്ടിച്ചേർക്കുന്നതിന് പകരം, സ്മൂത്ത്നസ്സും (smoothness) സ്റ്റെബിലിറ്റിയും (stability) സന്തുലിതമാക്കാൻ നിങ്ങൾക്ക് ഗണിതം ക്രമീകരിക്കാം.

ഒരു മോഡൽ എത്രത്തോളം നന്നായി ജനറലൈസ് (generalize) ചെയ്യുമെന്ന് ഈ സിദ്ധാന്തം പ്രവചിക്കുന്നു. നിങ്ങൾക്ക് എത്രത്തോളം ഡാറ്റ ആവശ്യമാണ് എന്നതിനെ നിങ്ങളുടെ ആർക്കിടെക്ചറിൽ ഉപയോഗിക്കുന്ന പ്രത്യേക ഗണിതശാസ്ത്രവുമായി ഇത് ബന്ധിപ്പിക്കുന്നു.

ഇനിയും ചില പോരായ്മകളുണ്ട്. മിക്ക മോഡലുകളും ReLU ഉപയോഗിക്കുന്നു, എന്നാൽ ഈ ഗണിതം ഏറ്റവും നന്നായി പ്രവർത്തിക്കുന്നത് log-sum-exp ലെയറുകളിലാണ്. ഈ ഫിസിക്സ് നിയമങ്ങൾ പ്രകടനം മെച്ചപ്പെടുത്തുന്നുണ്ടോ എന്ന് കാണാൻ നമുക്ക് കൂടുതൽ റിയൽ വേൾഡ് ടെസ്റ്റുകൾ ആവശ്യമാണ്.

ആർക്കിടെക്ചറുകളെ വ്യത്യസ്ത തരം ലെയറുകളായി കാണുന്നത് നമ്മൾ നിർത്തണം. ഒരേ സമവാക്യം പരിഹരിക്കാനുള്ള വ്യത്യസ്ത വഴികളായി അവയെ കാണണം.

Source: https://dev.to/olaughter/hamilton-jacobi-view-links-major-neural-architectures-5hln

Optional learning community: https://t.me/GyaanSetuAi

𝗛𝗮𝗺𝗶𝗹𝘁𝗼𝗻 𝗝𝗮𝗰𝗼𝗯𝗶 𝗧𝗵𝗲𝗼𝗿𝘆 𝗟𝗶𝗻𝗸𝘀 𝗡𝗲𝘂𝗿𝗮𝗹 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲𝘀

Continue reading

ഒരു ന്യൂറോണിന്റെ രൂപം

ട്രാൻസ്ഫോർമറുകൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു

𝗛𝗲𝘁𝗲𝗿𝗼𝗴𝗲𝗻𝗲𝗼𝘂𝘀 𝗜𝗻𝗳𝗼𝗿𝗺𝗮𝘁𝗶𝗼𝗻 𝗡𝗲𝘁𝘄𝗼𝗿𝗸 𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴

𝗪𝗵𝘆 𝗦𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲𝗱 𝗙𝗲𝗲𝗱𝗯𝗮𝗰𝗸 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗶𝗻 𝗔𝗜 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴

N-ബോഡി നെറ്റ്‌വർക്കുകൾ ആറ്റോമിക് പൊട്ടൻഷ്യലുകൾ പഠിക്കുന്നു