𝗛𝗮𝗺𝗶𝗹𝘁𝗼𝗻-𝗝𝗮𝗰𝗼𝗯𝗶 𝗧𝗵𝗲𝗼𝗿𝘆 𝗟𝗶𝗻𝗸𝘀 𝗡𝗲𝘂𝗿𝗮𝗹 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲𝘀 -> హ్యామిల్టన్-జాకోబి సిద్ధాంతం న్యూరల్ ఆర్కిటెక్చర్‌లను అనుసంధానిస్తుంది

న్యూరల్ నెట్‌వర్క్‌లు తరచుగా విడివిడి ట్రిక్‌ల సమూహంలా అనిపిస్తాయి.

ResNets స్కిప్ కనెక్షన్‌లను ఉపయోగిస్తాయి. Transformers అటెన్షన్‌ను ఉపయోగిస్తాయి. RNNs రికరెన్స్‌ను ఉపయోగిస్తాయి. ప్రతి మోడల్‌కు దాని స్వంత నియమాలు మరియు గణితం ఉంటాయి. దీనివల్ల మొత్తం చిత్రాన్ని అర్థం చేసుకోవడం కష్టమవుతుంది.

కొత్త పరిశోధన దీనిని మారుస్తోంది. ResNets, Transformers, మరియు RNNs వాస్తవానికి ఒకే గణిత వస్తువు అని ఇది చూపుతోంది. ఇవన్నీ హ్యామిల్టన్-జాకోబి సమీకరణాలను అనుసరిస్తాయి.

ఇది ఎలా పనిచేస్తుందంటే:

  • గ్రేడియంట్ డిసెంట్ అనేది ఒక రకమైన ఫిజిక్స్ ఎవల్యూషన్.
  • ప్రతి ట్రైనింగ్ స్టెప్ వెయిట్స్‌ను ఒక ద్రవంలా కదిలిస్తుంది.
  • డెప్త్, అటెన్షన్ మరియు రికరెన్స్ ఒక గణనలో టైమ్ స్టెప్స్‌లా పనిచేస్తాయి.
  • ఒకే ఒక పారామీటర్ మోడల్ ఎంత స్మూత్ లేదా స్పార్స్‌గా ఉండాలో నియంత్రిస్తుంది.

ఈ సిద్ధాంతం నాలుగు వేర్వేరు రంగాలను అనుసంధానిస్తుంది: న్యూరల్ నెట్‌వర్క్‌లు, ట్రాపికల్ ఆల్జీబ్రా, PDEs, మరియు కాన్వెక్స్ ఆప్టిమైజేషన్.

ఇది మీకు ఎందుకు ముఖ్యం?

ప్రస్తుత బెంచ్‌మార్క్‌లు ఎక్కువగా ఖచ్చితత్వం (accuracy) పైనే దృష్టి పెడతాయి. ఈ ఫ్రేమ్‌వర్క్ మోడల్‌లను నిర్మించడానికి ఒక కొత్త మార్గాన్ని సూచిస్తుంది. కేవలం లేయర్‌లను జోడించడం బదులుగా, స్మూత్‌నెస్ మరియు స్టెబిలిటీని సమతుల్యం చేయడానికి మీరు గణితాన్ని ట్యూన్ చేయవచ్చు.

ఒక మోడల్ ఎంత బాగా జనరలైజ్ అవుతుందో కూడా ఈ సిద్ధాంతం అంచనా వేస్తుంది. మీకు ఎంత డేటా అవసరమో, మీ ఆర్కిటెక్చర్‌లో ఉపయోగించిన నిర్దిష్ట గణితంతో ఇది అనుసంధానిస్తుంది.

ఇంకా కొన్ని లోపాలు ఉన్నాయి. చాలా మోడల్‌లు ReLUని ఉపయోగిస్తాయి, కానీ ఈ గణితం log-sum-exp లేయర్‌లతో ఉత్తమంగా పనిచేస్తుంది. ఈ ఫిజిక్స్ నియమాలు పనితీరును మెరుగుపరుస్తాయా లేదా అని చూడటానికి మనకు మరిన్ని రియల్-వరల్డ్ పరీక్షలు అవసరం.

ఆర్కిటెక్చర్‌లను కేవలం వేర్వేరు రకాల లేయర్‌లుగా చూడటం మనం ఆపాలి. వాటిని ఒకే సమీకరణాన్ని పరిష్కరించే వివిధ మార్గాలుగా మనం చూడాలి.

Source: https://dev.to/olaughter/hamilton-jacobi-view-links-major-neural-architectures-5hln

Optional learning community: https://t.me/GyaanSetuAi