હેમિલ્ટન-જેકોબી થિયરી ન્યુરલ આર્કિટેક્ચર્સને જોડે છે

ન્યુરલ નેટવર્ક્સ ઘણીવાર અલગ-અલગ યુક્તિઓના સંગ્રહ જેવા લાગે છે.

ResNets skip connections નો ઉપયોગ કરે છે. Transformers attention નો ઉપયોગ કરે છે. RNNs recurrence નો ઉપયોગ કરે છે. દરેક મોડેલના પોતાના નિયમો અને ગણિત હોય છે. આના કારણે મોટી તસવીર જોવી મુશ્કેલ બને છે.

નવું સંશોધન આ બદલી રહ્યું છે. તે દર્શાવે છે કે ResNets, Transformers, અને RNNs ખરેખર એક જ ગાણિતિક વસ્તુ છે. તેઓ બધા Hamilton-Jacobi સમીકરણોનું પાલન કરે છે.

તે કેવી રીતે કામ કરે છે તે અહીં છે:

  • Gradient descent એ ભૌતિક વિજ્ઞાનના ઉત્ક્રાંતિ (evolution) નો એક પ્રકાર છે.
  • તાલીમનું દરેક સ્ટેપ વજન (weights) ને પ્રવાહીની જેમ ખસેડે છે.
  • ઊંડાઈ (Depth), attention, અને recurrence ગણતરીમાં સમયના સ્ટેપ્સ (time steps) તરીકે કાર્ય કરે છે.
  • એક જ પેરામીટર નિયંત્રિત કરે છે કે મોડેલ કેટલું સ્મૂધ (smooth) અથવા સ્પાર્સ (sparse) બને છે.

આ થિયરી ચાર અલગ-અલગ ક્ષેત્રોને જોડે છે: neural networks, tropical algebra, PDEs, અને convex optimization.

આ તમારા માટે શા માટે મહત્વનું છે?

વર્તમાન બેન્ચમાર્ક મોટે ભાગે ચોકસાઈ (accuracy) પર ધ્યાન કેન્દ્રિત કરે છે. આ ફ્રેમવર્ક મોડેલ્સ બનાવવા માટે એક નવો રસ્તો સૂચવે છે. ફક્ત લેયર્સ ઉમેરવાને બદલે, તમે સ્મૂધનેસ અને સ્થિરતા (stability) વચ્ચે સંતુલન જાળવવા માટે ગણિતને ટ્યુન કરી શકો છો.

આ થિયરી એ પણ આગાહી કરે છે કે મોડેલ કેટલી સારી રીતે જનરલાઈઝ (generalize) થશે. તે તમારે કેટલા ડેટાની જરૂર છે તેને તમારા આર્કિટેક્ચરમાં વપરાતા ચોક્કસ ગણિત સાથે જોડે છે.

હજુ પણ કેટલીક ખામીઓ છે. મોટાભાગના મોડેલ્સ ReLU નો ઉપયોગ કરે છે, પરંતુ આ ગણિત log-sum-exp લેયર્સ સાથે શ્રેષ્ઠ રીતે કામ કરે છે. આ ભૌતિક વિજ્ઞાનના નિયમો કામગીરી (performance) સુધારે છે કે નહીં તે જોવા માટે આપણે વધુ વાસ્તવિક દુનિયાના પરીક્ષણોની પણ જરૂર છે.

આપણે આર્કિટેક્ચર્સને અલગ-અલગ પ્રકારના લેયર્સ તરીકે જોવાનું બંધ કરવું જોઈએ. આપણે તેને એક જ સમીકરણ ઉકેલવાની વિવિધ રીતો તરીકે જોવી જોઈએ.

સ્ત્રોત: https://dev.to/olaughter/hamilton-jacobi-view-links-major-neural-architectures-5hln

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi