𝗧𝗵𝗿𝗲𝗲 𝗜𝗱𝗲𝗮𝘀 𝗧𝗵𝗮𝘁 𝗠𝗮𝗱𝗲 𝗠𝗼𝗱𝗲𝗿𝗻 𝗔𝗜 𝗣𝗼𝘀𝘀𝗶𝗯𝗹𝗲

ఆధునిక AI మ్యాజిక్ లాగా అనిపిస్తుంది. మీరు ఒక వాక్యాన్ని టైప్ చేస్తే, ఒక మెషిన్ దానికి సమాధానం రాస్తుంది. ఇది వింతగా అనిపించవచ్చు, కానీ నిజానికి అది కాదు.

దాదాపు ప్రతి మోడల్ వెనుక ఉన్న ఆర్కిటెక్చర్ సాధారణ ఇంజనీరింగ్ పరిష్కారాలపై ఆధారపడి ఉంటుంది. ఈ పరిష్కారాలు నిర్దిష్ట సమస్యలను పరిష్కరించాయి. ఇందులో ఎటువంటి రహస్య మంత్రం లేదు. కేవలం మూడు ముఖ్యమైన మార్పులు మాత్రమే ఉన్నాయి.

  1. Skip Connections

2014 ప్రాంతంలో, ఇంజనీర్లు న్యూరల్ నెట్‌వర్క్‌లను మరింత లోతుగా (deeper) చేయడానికి ప్రయత్నించారు. ఎక్కువ లేయర్‌లు ఉంటే మెరుగైన ఫలితాలు వస్తాయని వారు అనుకున్నారు. కానీ వారు పొరబడ్డారు. లోతైన నెట్‌వర్క్‌లు తరచుగా అధ్వాన్నంగా పనిచేసేవి, ఎందుకంటే ఎర్రర్ సిగ్నల్ (error signal) ప్రారంభ లేయర్‌లకు చేరుకోలేకపోయేది. ఆ సిగ్నల్ తగ్గిపోవడం లేదా విపరీతంగా పెరిగిపోవడం (explode) జరిగేది.

Skip connections దీనిని సరిదిద్దాయి. ప్రతి లేయర్ ఇన్‌పుట్‌ను మార్చాలని బలవంతం చేసే బదులు, ఇన్‌పుట్ నేరుగా ముందుకు వెళ్లేలా (skip ahead) చేస్తారు. మీరు అసలు ఇన్‌పుట్‌ను అవుట్‌పుట్‌కు తిరిగి జోడిస్తారు.

ఇది రెండు పనులు చేస్తుంది:

  • ఇది "ఏమీ చేయకుండా ఉండటాన్ని" సులభతరం చేస్తుంది. ఒక లేయర్ ఎటువంటి విలువను జోడించకపోతే, ఇన్‌పుట్ ఏ మార్పు లేకుండా ముందుకు ప్రవహిస్తుంది.
  • ఇది ఎర్రర్ సిగ్నల్ కోసం ఒక ప్రత్యక్ష మార్గాన్ని సృష్టిస్తుంది. సిగ్నల్‌కు ప్రారంభ లేయర్‌లకు వెళ్లడానికి ఒక ఎక్స్‌ప్రెస్ లేన్ లభిస్తుంది.
  1. Normalization

డేటా నెట్‌వర్క్ ద్వారా ప్రయాణించేటప్పుడు, సంఖ్యల స్కేల్ మారుతూ ఉంటుంది. ఒక లేయర్ 0.01ని ఉత్పత్తి చేస్తే, తదుపరి లేయర్ 5000ని ఉత్పత్తి చేయవచ్చు. సంఖ్యలు ఇటువంటి విపరీత స్థాయిలకు చేరుకున్నప్పుడు, లెర్నింగ్ (learning) ఆగిపోతుంది.

Normalization సంఖ్యల పరిమాణాన్ని క్రమబద్ధీకరిస్తుంది. ఇది సంఖ్యలను సున్నా చుట్టూ మళ్ళీ కేంద్రీకరిస్తుంది మరియు వాటిని స్థిరమైన స్కేల్‌లో ఉంచుతుంది. ఇది మీరు అధిక లెర్నింగ్ రేట్‌లను ఉపయోగించడానికి మరియు చాలా వేగంగా శిక్షణ ఇవ్వడానికి అనుమతిస్తుంది. ఇది గణిత ప్రక్రియ సజావుగా సాగేలా చేస్తుంది.

  1. Attention

పాత మోడల్‌లు వచనాన్ని (text) ఒక సమయంలో ఒక పదాన్ని మాత్రమే చదివేవి. ఇది నెమ్మదిగా ఉండేది మరియు పాత విషయాలను మర్చిపోయేది. మొదటి పదాన్ని చివరి పదంతో అనుసంధానించడానికి, సమాచారం మధ్యలో ఉన్న ప్రతి పదం ద్వారా వెళ్లాల్సి వచ్చేది. చివరికి వచ్చేసరికి, మొదటి భాగం మర్చిపోయే పరిస్థితి వచ్చేది.

Attention దీనిని మారుస్తుంది. క్రమ పద్ధతిలో చదివే బదులు, ప్రతి పదం వాక్యంలో ఉన్న మిగిలిన ప్రతి పదాన్ని ఒకేసారి చూస్తుంది. "it" అనే పదం ఎంత దూరంలో ఉన్నా, అది నేరుగా దాని నామవాచకాన్ని (noun) చూడగలదు.

ఏదీ నిర్దిష్ట క్రమంపై ఆధారపడదు కాబట్టి, మీరు అన్నింటినీ ఒకేసారి ప్రాసెస్ చేయవచ్చు. ఇది శిక్షణను వేగంగా మరియు సమర్థవంతంగా చేస్తుంది.

ఈ మూడు ఆలోచనలను ఒకదానిపై ఒకటి అమర్చడం వల్ల ఏర్పడినదే Transformer. ఇది skip connections తో కలిపిన attention blocks ను ఉపయోగిస్తుంది మరియు వాటి మధ్య normalization ఉంటుంది.

AI అనేది మంత్రతంత్రం కాదు. ఏదో తప్పుగా ఉందని గమనించి, దానిని సరళమైన గణితంతో సరిదిద్దిన వ్యక్తుల కృషి ఫలితం ఇది.

Source: https://dev.to/karthi_raman_02ec8161bda/three-ideas-made-modern-ai-possible-none-of-them-are-magic-ida

Optional learning community: https://t.me/GyaanSetuAi