AIని సాధ్యం చేసిన మూడు ఆలోచనలు

Translated for your language. Read the original.

AI-assisted draft.

AIని సాధ్యం చేసిన మూడు ఆలోచనలు

ఆధునిక AI మ్యాజిక్ లాగా అనిపిస్తుంది. మీరు ఒక వాక్యాన్ని టైప్ చేస్తే, ఒక యంత్రం దానికి తిరిగి సమాధానం రాస్తుంది. ఇది వింతగా అనిపిస్తుంది.

అలా కాదు.

ఇంజనీర్లు కొన్ని నిర్దిష్ట సమస్యలను పరిష్కరించడం వల్లనే ఆధునిక AI ఉనికిలోకి వచ్చింది. వారు లోపభూయిష్టమైన నెట్‌వర్క్‌లను గుర్తించి, వాటిని సరిదిద్దారు.

Transformerను నిర్మించిన మూడు ఇంజనీరింగ్ పరిష్కారాలు ఇక్కడ ఉన్నాయి.

Skip Connections

2014లో, పరిశోధకులు న్యూరల్ నెట్‌వర్క్‌లను మరింత లోతుగా (deeper) చేయడానికి ప్రయత్నించారు. ఎక్కువ లేయర్‌లు ఉంటే మెరుగైన ఫలితాలు వస్తాయని వారు భావించారు. కానీ అది విఫలమైంది. లోతైన నెట్‌వర్క్‌లు నిజానికి మరింత అధ్వాన్నంగా పనిచేసాయి.

నెట్‌వర్క్‌ను ట్రైన్ చేయడానికి ఉపయోగించే ఎర్రర్ సిగ్నల్ (error signal), అనేక లేయర్‌ల గుండా ప్రయాణించేటప్పుడు తగ్గిపోవడం లేదా విపరీతంగా పెరిగిపోవడం జరిగేది. దీనివల్ల ప్రారంభ లేయర్‌లకు ఎటువంటి ఉపయోగకరమైన ఫీడ్‌బ్యాక్ అందేది కాదు.

దీనికి పరిష్కారం చాలా సరళమైనది. ప్రతి లేయర్ ఇన్‌పుట్‌ను మార్చాలని బలవంతం చేసే బదులు, ఇన్‌పుట్‌ను నేరుగా ముందుకు వెళ్లనివ్వాలి (skip ahead).

ఒక ResNet బ్లాక్‌లో, మీరు అసలు ఇన్‌పుట్‌ను అవుట్‌పుట్‌కు తిరిగి కలుపుతారు. ఇది సిగ్నల్ ప్రయాణించడానికి ఒక ప్రత్యక్ష మార్గాన్ని సృష్టిస్తుంది. దీనివల్ల ఎక్కువ లేయర్‌లను జోడించినా సిస్టమ్ పాడవదు. ఒక లేయర్ ఉపయోగపడకపోతే, అది ఇన్‌పుట్‌ను ఏ మార్పు లేకుండా అలాగే పంపగలదు.

Normalization

డేటా నెట్‌వర్క్ ద్వారా ప్రయాణించేటప్పుడు, సంఖ్యలు మారుతూ ఉంటాయి (drift). ఒక లేయర్ 0.01ని అవుట్‌పుట్‌గా ఇస్తే, తదుపరి లేయర్ 5000ని ఇవ్వవచ్చు. సంఖ్యలు ఇలా విపరీతమైన స్థాయికి చేరుకున్నప్పుడు, లెర్నింగ్ ఆగిపోతుంది.

Normalization ఈ సమస్యను పరిష్కరిస్తుంది. ఇది సంఖ్యలను సున్నా చుట్టూ మళ్లీ కేంద్రీకరించి, వాటిని ఒక స్థిరమైన పరిధిలోకి (consistent range) మారుస్తుంది.

ఇది గణితాన్ని స్థిరంగా ఉంచుతుంది. దీనివల్ల మీరు అధిక లెర్నింగ్ రేట్‌లను ఉపయోగించవచ్చు మరియు చాలా వేగంగా ట్రైన్ చేయవచ్చు. ఇది డీబగ్గింగ్ (debugging) కోసం పట్టే ఎన్నో గంటల సమయాన్ని ఆదా చేసే ఒక ఆచరణాత్మక పరిష్కారం.

Attention

పాత మోడల్‌లు టెక్స్ట్‌ను ఒకేసారి ఒక పదాన్ని మాత్రమే చదివేవి. పదాలను సమాంతరంగా (parallel) ప్రాసెస్ చేయలేకపోవడం వల్ల ఇది నెమ్మదిగా ఉండేది. అలాగే, వాక్యం చివరకు చేరుకునేసరికి మోడల్ వాక్యం ప్రారంభాన్ని మర్చిపోయే అవకాశం ఉండటం వల్ల ఇది 'మరపుగుంటది'గా ఉండేది.

Attention దీనిని మారుస్తుంది. క్రమ పద్ధతిలో చదవడానికి బదులుగా, వాక్యంలోని ప్రతి పదం ఒకేసారి మిగిలిన అన్ని పదాలను గమనిస్తుంది.

"it" అనే పదం దాని నామవాచకంతో (noun) ఎంత దూరంలో ఉన్నా నేరుగా అనుసంధానించబడగలదు. పదాలు ఒక క్రమం (sequence) మీద ఆధారపడవు కాబట్టి, మీరు GPUని ఉపయోగించి అన్నింటినీ ఒకేసారి లెక్కించవచ్చు (compute).

Transformer ఈ మూడింటినీ కలుపుతుంది. ఇది skip connections తో కలిసిన attention బ్లాక్‌లను ఉపయోగిస్తుంది మరియు వాటి మధ్య normalization ఉంటుంది.

AI కి తెలివితేటలను అర్థం చేసుకోవడంలో ఏదో ఒక గొప్ప ఆవిష్కరణ అవసరం లేదు. విఫలమవుతున్న వ్యవస్థలకు మూడు తెలివైన పరిష్కారాలు ఉంటే సరిపోతుంది.

Source: https://dev.to/karthi_raman_02ec8161bda0/three-ideas-made-modern-ai-possible-none-of-them-are-magic-523i

Optional learning community: https://t.me/GyaanSetuAi

AIని సాధ్యం చేసిన మూడు ఆలోచనలు

Continue reading

ట్రాన్స్‌ఫార్మర్‌లు ఎలా పనిచేస్తాయి

𝗧𝗵𝗿𝗲𝗲 𝗜𝗱𝗲𝗮𝘀 𝗧𝗵𝗮𝘁 𝗠𝗮𝗱𝗲 𝗠𝗼𝗱𝗲𝗿𝗻 𝗔𝗜 𝗣𝗼𝘀𝘀𝗶𝗯𝗹𝗲

𝗦𝘁𝗼𝗽 𝗧𝗲𝗹𝗹𝗶𝗻𝗴 𝗬𝗼𝘂𝗿 𝗔𝗜 𝘁𝗼 𝗯𝗲 𝗰𝗮𝗿𝗲𝗳𝘂𝗹