AIని సాధ్యం చేసిన మూడు ఆలోచనలు

ఆధునిక AI మ్యాజిక్ లాగా అనిపిస్తుంది. మీరు ఒక వాక్యాన్ని టైప్ చేస్తే, ఒక యంత్రం దానికి తిరిగి సమాధానం రాస్తుంది. ఇది వింతగా అనిపిస్తుంది.

అలా కాదు.

ఇంజనీర్లు కొన్ని నిర్దిష్ట సమస్యలను పరిష్కరించడం వల్లనే ఆధునిక AI ఉనికిలోకి వచ్చింది. వారు లోపభూయిష్టమైన నెట్‌వర్క్‌లను గుర్తించి, వాటిని సరిదిద్దారు.

Transformerను నిర్మించిన మూడు ఇంజనీరింగ్ పరిష్కారాలు ఇక్కడ ఉన్నాయి.

  1. Skip Connections

2014లో, పరిశోధకులు న్యూరల్ నెట్‌వర్క్‌లను మరింత లోతుగా (deeper) చేయడానికి ప్రయత్నించారు. ఎక్కువ లేయర్‌లు ఉంటే మెరుగైన ఫలితాలు వస్తాయని వారు భావించారు. కానీ అది విఫలమైంది. లోతైన నెట్‌వర్క్‌లు నిజానికి మరింత అధ్వాన్నంగా పనిచేసాయి.

నెట్‌వర్క్‌ను ట్రైన్ చేయడానికి ఉపయోగించే ఎర్రర్ సిగ్నల్ (error signal), అనేక లేయర్‌ల గుండా ప్రయాణించేటప్పుడు తగ్గిపోవడం లేదా విపరీతంగా పెరిగిపోవడం జరిగేది. దీనివల్ల ప్రారంభ లేయర్‌లకు ఎటువంటి ఉపయోగకరమైన ఫీడ్‌బ్యాక్ అందేది కాదు.

దీనికి పరిష్కారం చాలా సరళమైనది. ప్రతి లేయర్ ఇన్‌పుట్‌ను మార్చాలని బలవంతం చేసే బదులు, ఇన్‌పుట్‌ను నేరుగా ముందుకు వెళ్లనివ్వాలి (skip ahead).

ఒక ResNet బ్లాక్‌లో, మీరు అసలు ఇన్‌పుట్‌ను అవుట్‌పుట్‌కు తిరిగి కలుపుతారు. ఇది సిగ్నల్ ప్రయాణించడానికి ఒక ప్రత్యక్ష మార్గాన్ని సృష్టిస్తుంది. దీనివల్ల ఎక్కువ లేయర్‌లను జోడించినా సిస్టమ్ పాడవదు. ఒక లేయర్ ఉపయోగపడకపోతే, అది ఇన్‌పుట్‌ను ఏ మార్పు లేకుండా అలాగే పంపగలదు.

  1. Normalization

డేటా నెట్‌వర్క్ ద్వారా ప్రయాణించేటప్పుడు, సంఖ్యలు మారుతూ ఉంటాయి (drift). ఒక లేయర్ 0.01ని అవుట్‌పుట్‌గా ఇస్తే, తదుపరి లేయర్ 5000ని ఇవ్వవచ్చు. సంఖ్యలు ఇలా విపరీతమైన స్థాయికి చేరుకున్నప్పుడు, లెర్నింగ్ ఆగిపోతుంది.

Normalization ఈ సమస్యను పరిష్కరిస్తుంది. ఇది సంఖ్యలను సున్నా చుట్టూ మళ్లీ కేంద్రీకరించి, వాటిని ఒక స్థిరమైన పరిధిలోకి (consistent range) మారుస్తుంది.

ఇది గణితాన్ని స్థిరంగా ఉంచుతుంది. దీనివల్ల మీరు అధిక లెర్నింగ్ రేట్‌లను ఉపయోగించవచ్చు మరియు చాలా వేగంగా ట్రైన్ చేయవచ్చు. ఇది డీబగ్గింగ్ (debugging) కోసం పట్టే ఎన్నో గంటల సమయాన్ని ఆదా చేసే ఒక ఆచరణాత్మక పరిష్కారం.

  1. Attention

పాత మోడల్‌లు టెక్స్ట్‌ను ఒకేసారి ఒక పదాన్ని మాత్రమే చదివేవి. పదాలను సమాంతరంగా (parallel) ప్రాసెస్ చేయలేకపోవడం వల్ల ఇది నెమ్మదిగా ఉండేది. అలాగే, వాక్యం చివరకు చేరుకునేసరికి మోడల్ వాక్యం ప్రారంభాన్ని మర్చిపోయే అవకాశం ఉండటం వల్ల ఇది 'మరపుగుంటది'గా ఉండేది.

Attention దీనిని మారుస్తుంది. క్రమ పద్ధతిలో చదవడానికి బదులుగా, వాక్యంలోని ప్రతి పదం ఒకేసారి మిగిలిన అన్ని పదాలను గమనిస్తుంది.

"it" అనే పదం దాని నామవాచకంతో (noun) ఎంత దూరంలో ఉన్నా నేరుగా అనుసంధానించబడగలదు. పదాలు ఒక క్రమం (sequence) మీద ఆధారపడవు కాబట్టి, మీరు GPUని ఉపయోగించి అన్నింటినీ ఒకేసారి లెక్కించవచ్చు (compute).

Transformer ఈ మూడింటినీ కలుపుతుంది. ఇది skip connections తో కలిసిన attention బ్లాక్‌లను ఉపయోగిస్తుంది మరియు వాటి మధ్య normalization ఉంటుంది.

AI కి తెలివితేటలను అర్థం చేసుకోవడంలో ఏదో ఒక గొప్ప ఆవిష్కరణ అవసరం లేదు. విఫలమవుతున్న వ్యవస్థలకు మూడు తెలివైన పరిష్కారాలు ఉంటే సరిపోతుంది.

Source: https://dev.to/karthi_raman_02ec8161bda0/three-ideas-made-modern-ai-possible-none-of-them-are-magic-523i

Optional learning community: https://t.me/GyaanSetuAi