𝗛𝗮𝗺𝗶𝗹𝘁𝗼𝗻-𝗝𝗮𝗰𝗼𝗯𝗶 𝗧𝗵𝗲𝗼𝗿𝘆 𝗟𝗶𝗻𝗸𝘀 𝗡𝗲𝘂𝗿𝗮𝗹 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲𝘀 -> హ్యామిల్టన్-జాకోబి సిద్ధాంతం న్యూరల్ ఆర్కిటెక్చర్లను అనుసంధానిస్తుంది
న్యూరల్ నెట్వర్క్లు తరచుగా విడివిడి ట్రిక్ల సమూహంలా అనిపిస్తాయి.
ResNets స్కిప్ కనెక్షన్లను ఉపయోగిస్తాయి. Transformers అటెన్షన్ను ఉపయోగిస్తాయి. RNNs రికరెన్స్ను ఉపయోగిస్తాయి. ప్రతి మోడల్కు దాని స్వంత నియమాలు మరియు గణితం ఉంటాయి. దీనివల్ల మొత్తం చిత్రాన్ని అర్థం చేసుకోవడం కష్టమవుతుంది.
కొత్త పరిశోధన దీనిని మారుస్తోంది. ResNets, Transformers, మరియు RNNs వాస్తవానికి ఒకే గణిత వస్తువు అని ఇది చూపుతోంది. ఇవన్నీ హ్యామిల్టన్-జాకోబి సమీకరణాలను అనుసరిస్తాయి.
ఇది ఎలా పనిచేస్తుందంటే:
- గ్రేడియంట్ డిసెంట్ అనేది ఒక రకమైన ఫిజిక్స్ ఎవల్యూషన్.
- ప్రతి ట్రైనింగ్ స్టెప్ వెయిట్స్ను ఒక ద్రవంలా కదిలిస్తుంది.
- డెప్త్, అటెన్షన్ మరియు రికరెన్స్ ఒక గణనలో టైమ్ స్టెప్స్లా పనిచేస్తాయి.
- ఒకే ఒక పారామీటర్ మోడల్ ఎంత స్మూత్ లేదా స్పార్స్గా ఉండాలో నియంత్రిస్తుంది.
ఈ సిద్ధాంతం నాలుగు వేర్వేరు రంగాలను అనుసంధానిస్తుంది: న్యూరల్ నెట్వర్క్లు, ట్రాపికల్ ఆల్జీబ్రా, PDEs, మరియు కాన్వెక్స్ ఆప్టిమైజేషన్.
ఇది మీకు ఎందుకు ముఖ్యం?
ప్రస్తుత బెంచ్మార్క్లు ఎక్కువగా ఖచ్చితత్వం (accuracy) పైనే దృష్టి పెడతాయి. ఈ ఫ్రేమ్వర్క్ మోడల్లను నిర్మించడానికి ఒక కొత్త మార్గాన్ని సూచిస్తుంది. కేవలం లేయర్లను జోడించడం బదులుగా, స్మూత్నెస్ మరియు స్టెబిలిటీని సమతుల్యం చేయడానికి మీరు గణితాన్ని ట్యూన్ చేయవచ్చు.
ఒక మోడల్ ఎంత బాగా జనరలైజ్ అవుతుందో కూడా ఈ సిద్ధాంతం అంచనా వేస్తుంది. మీకు ఎంత డేటా అవసరమో, మీ ఆర్కిటెక్చర్లో ఉపయోగించిన నిర్దిష్ట గణితంతో ఇది అనుసంధానిస్తుంది.
ఇంకా కొన్ని లోపాలు ఉన్నాయి. చాలా మోడల్లు ReLUని ఉపయోగిస్తాయి, కానీ ఈ గణితం log-sum-exp లేయర్లతో ఉత్తమంగా పనిచేస్తుంది. ఈ ఫిజిక్స్ నియమాలు పనితీరును మెరుగుపరుస్తాయా లేదా అని చూడటానికి మనకు మరిన్ని రియల్-వరల్డ్ పరీక్షలు అవసరం.
ఆర్కిటెక్చర్లను కేవలం వేర్వేరు రకాల లేయర్లుగా చూడటం మనం ఆపాలి. వాటిని ఒకే సమీకరణాన్ని పరిష్కరించే వివిధ మార్గాలుగా మనం చూడాలి.
Source: https://dev.to/olaughter/hamilton-jacobi-view-links-major-neural-architectures-5hln
Optional learning community: https://t.me/GyaanSetuAi