AIని సాధ్యం చేసిన మూడు ఆలోచనలు
ఆధునిక AI మ్యాజిక్ లాగా అనిపిస్తుంది. మీరు ఒక వాక్యాన్ని టైప్ చేస్తే, ఒక యంత్రం దానికి తిరిగి సమాధానం రాస్తుంది. ఇది వింతగా అనిపిస్తుంది.
అలా కాదు.
ఇంజనీర్లు కొన్ని నిర్దిష్ట సమస్యలను పరిష్కరించడం వల్లనే ఆధునిక AI ఉనికిలోకి వచ్చింది. వారు లోపభూయిష్టమైన నెట్వర్క్లను గుర్తించి, వాటిని సరిదిద్దారు.
Transformerను నిర్మించిన మూడు ఇంజనీరింగ్ పరిష్కారాలు ఇక్కడ ఉన్నాయి.
- Skip Connections
2014లో, పరిశోధకులు న్యూరల్ నెట్వర్క్లను మరింత లోతుగా (deeper) చేయడానికి ప్రయత్నించారు. ఎక్కువ లేయర్లు ఉంటే మెరుగైన ఫలితాలు వస్తాయని వారు భావించారు. కానీ అది విఫలమైంది. లోతైన నెట్వర్క్లు నిజానికి మరింత అధ్వాన్నంగా పనిచేసాయి.
నెట్వర్క్ను ట్రైన్ చేయడానికి ఉపయోగించే ఎర్రర్ సిగ్నల్ (error signal), అనేక లేయర్ల గుండా ప్రయాణించేటప్పుడు తగ్గిపోవడం లేదా విపరీతంగా పెరిగిపోవడం జరిగేది. దీనివల్ల ప్రారంభ లేయర్లకు ఎటువంటి ఉపయోగకరమైన ఫీడ్బ్యాక్ అందేది కాదు.
దీనికి పరిష్కారం చాలా సరళమైనది. ప్రతి లేయర్ ఇన్పుట్ను మార్చాలని బలవంతం చేసే బదులు, ఇన్పుట్ను నేరుగా ముందుకు వెళ్లనివ్వాలి (skip ahead).
ఒక ResNet బ్లాక్లో, మీరు అసలు ఇన్పుట్ను అవుట్పుట్కు తిరిగి కలుపుతారు. ఇది సిగ్నల్ ప్రయాణించడానికి ఒక ప్రత్యక్ష మార్గాన్ని సృష్టిస్తుంది. దీనివల్ల ఎక్కువ లేయర్లను జోడించినా సిస్టమ్ పాడవదు. ఒక లేయర్ ఉపయోగపడకపోతే, అది ఇన్పుట్ను ఏ మార్పు లేకుండా అలాగే పంపగలదు.
- Normalization
డేటా నెట్వర్క్ ద్వారా ప్రయాణించేటప్పుడు, సంఖ్యలు మారుతూ ఉంటాయి (drift). ఒక లేయర్ 0.01ని అవుట్పుట్గా ఇస్తే, తదుపరి లేయర్ 5000ని ఇవ్వవచ్చు. సంఖ్యలు ఇలా విపరీతమైన స్థాయికి చేరుకున్నప్పుడు, లెర్నింగ్ ఆగిపోతుంది.
Normalization ఈ సమస్యను పరిష్కరిస్తుంది. ఇది సంఖ్యలను సున్నా చుట్టూ మళ్లీ కేంద్రీకరించి, వాటిని ఒక స్థిరమైన పరిధిలోకి (consistent range) మారుస్తుంది.
ఇది గణితాన్ని స్థిరంగా ఉంచుతుంది. దీనివల్ల మీరు అధిక లెర్నింగ్ రేట్లను ఉపయోగించవచ్చు మరియు చాలా వేగంగా ట్రైన్ చేయవచ్చు. ఇది డీబగ్గింగ్ (debugging) కోసం పట్టే ఎన్నో గంటల సమయాన్ని ఆదా చేసే ఒక ఆచరణాత్మక పరిష్కారం.
- Attention
పాత మోడల్లు టెక్స్ట్ను ఒకేసారి ఒక పదాన్ని మాత్రమే చదివేవి. పదాలను సమాంతరంగా (parallel) ప్రాసెస్ చేయలేకపోవడం వల్ల ఇది నెమ్మదిగా ఉండేది. అలాగే, వాక్యం చివరకు చేరుకునేసరికి మోడల్ వాక్యం ప్రారంభాన్ని మర్చిపోయే అవకాశం ఉండటం వల్ల ఇది 'మరపుగుంటది'గా ఉండేది.
Attention దీనిని మారుస్తుంది. క్రమ పద్ధతిలో చదవడానికి బదులుగా, వాక్యంలోని ప్రతి పదం ఒకేసారి మిగిలిన అన్ని పదాలను గమనిస్తుంది.
"it" అనే పదం దాని నామవాచకంతో (noun) ఎంత దూరంలో ఉన్నా నేరుగా అనుసంధానించబడగలదు. పదాలు ఒక క్రమం (sequence) మీద ఆధారపడవు కాబట్టి, మీరు GPUని ఉపయోగించి అన్నింటినీ ఒకేసారి లెక్కించవచ్చు (compute).
Transformer ఈ మూడింటినీ కలుపుతుంది. ఇది skip connections తో కలిసిన attention బ్లాక్లను ఉపయోగిస్తుంది మరియు వాటి మధ్య normalization ఉంటుంది.
AI కి తెలివితేటలను అర్థం చేసుకోవడంలో ఏదో ఒక గొప్ప ఆవిష్కరణ అవసరం లేదు. విఫలమవుతున్న వ్యవస్థలకు మూడు తెలివైన పరిష్కారాలు ఉంటే సరిపోతుంది.
Optional learning community: https://t.me/GyaanSetuAi