𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

ట్రాన్స్‌ఫార్మర్స్ AIని మార్చివేసాయి. అవి వచనాన్ని (text) ఒక్కో పదంగా చదవడం ఆపివేసాయి.

RNNల వంటి పాత మోడల్స్ దశలవారీగా (step by step) ముందుకు సాగేవి. ట్రాన్స్‌ఫార్మర్స్ ఒక క్రమంలో ఉన్న అన్ని పదాలను ఒకేసారి పోల్చి చూస్తాయి. ఈ డిజైన్ వల్లనే ఆధునిక LLMలు సాధ్యమయ్యాయి.

ట్రాన్స్‌ఫార్మర్ అనేది అటెన్షన్ (attention) ఆధారంగా నిర్మించబడిన ఒక న్యూరల్ నెట్‌వర్క్. ఇది టోకెన్ల క్రమాన్ని పరిశీలించి, అవి ఒకదానితో ఒకటి ఎలా సంబంధం కలిగి ఉన్నాయో నేర్చుకుంటుంది. భాష సందర్భం (context) మీద ఆధారపడి ఉంటుంది కాబట్టి ఇది చాలా కీలకం. ఒక పదానికి ఇతర పదాలతో ఉన్న సంబంధం ద్వారానే అర్థం లభిస్తుంది.

ప్రధాన ప్రక్రియ:

సెల్ఫ్-అటెన్షన్ ఒక టోకెన్‌కు ఈ ప్రశ్న అడగడానికి అనుమతిస్తుంది: "నా అర్థం కోసం ఏ ఇతర టోకెన్లు ముఖ్యమైనవి?"

"The animal did not cross the street because it was tired" అనే వాక్యంలో, "it" అనే పదం జంతువును (animal) సూచిస్తుంది. సెల్ఫ్-అటెన్షన్ వల్ల మోడల్ "it"ను "street"కి బదులుగా "animal"కి అనుసంధానించగలదు.

అటెన్షన్ ఎలా పనిచేస్తుంది: ప్రతి టోకెన్ మూడు వెక్టర్లను (vectors) సృష్టిస్తుంది:

మల్టీ-హెడ్ అటెన్షన్ (Multi-Head Attention) ఈ ప్రక్రియలను ఒకేసారి అనేకసార్లు నిర్వహిస్తుంది. ఒక హెడ్ వ్యాకరణాన్ని (grammar) గమనిస్తే, మరొకటి అర్థాన్ని (meaning) గమనించవచ్చు. ఇది మోడల్‌ను మరింత తెలివైనదిగా చేస్తుంది.

ఆర్కిటెక్చర్ పరిణామం: అసలు ట్రాన్స్‌ఫార్మర్ ఎన్‌కోడర్-డీకోడర్ (Encoder-Decoder) నిర్మాణాన్ని ఉపయోగించేది. GPT వంటి ఆధునిక LLMలు ఎక్కువగా డీకోడర్-ఓన్లీ (decoder-only) రకానికి చెందినవి. అవి తదుపరి టోకెన్‌ను అంచనా వేసి, దానిని క్రమంలో చేర్చి, మళ్ళీ అదే ప్రక్రియను పునరావృతం చేస్తాయి.

ఆధునిక LLMలు వేగంగా మరియు సమర్థవంతంగా ఉండటానికి పలు అప్‌గ్రేడ్‌లను ఉపయోగిస్తాయి:

ట్రాన్స్‌ఫార్మర్స్ ఒక క్రమాన్ని (sequence) సంబంధాల సమితిగా మార్చడం ద్వారా పనిచేస్తాయి. అవి స్టాక్డ్ బ్లాక్స్ (stacked blocks) ద్వారా ఈ సంబంధాలను మెరుగుపరుస్తాయి.

మీరు దీనిని నేర్చుకోవాలనుకుంటే, ఈ క్రమాన్ని అనుసరించండి:

  1. Attention Mechanism
  2. Self-Attention and QKV
  3. Multi-Head Attention
  4. Positional Encoding
  5. Decoder Architecture
  6. KV Cache and Efficient Attention

Source: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

Optional learning community: https://t.me/GyaanSetuAi