𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸
ట్రాన్స్ఫార్మర్స్ AIని మార్చివేసాయి. అవి వచనాన్ని (text) ఒక్కో పదంగా చదవడం ఆపివేసాయి.
RNNల వంటి పాత మోడల్స్ దశలవారీగా (step by step) ముందుకు సాగేవి. ట్రాన్స్ఫార్మర్స్ ఒక క్రమంలో ఉన్న అన్ని పదాలను ఒకేసారి పోల్చి చూస్తాయి. ఈ డిజైన్ వల్లనే ఆధునిక LLMలు సాధ్యమయ్యాయి.
ట్రాన్స్ఫార్మర్ అనేది అటెన్షన్ (attention) ఆధారంగా నిర్మించబడిన ఒక న్యూరల్ నెట్వర్క్. ఇది టోకెన్ల క్రమాన్ని పరిశీలించి, అవి ఒకదానితో ఒకటి ఎలా సంబంధం కలిగి ఉన్నాయో నేర్చుకుంటుంది. భాష సందర్భం (context) మీద ఆధారపడి ఉంటుంది కాబట్టి ఇది చాలా కీలకం. ఒక పదానికి ఇతర పదాలతో ఉన్న సంబంధం ద్వారానే అర్థం లభిస్తుంది.
ప్రధాన ప్రక్రియ:
- టోకెన్లు ఎంబెడ్డింగ్స్గా (embeddings) మారుతాయి
- పొజిషనల్ సమాచారం క్రమాన్ని జోడిస్తుంది
- సెల్ఫ్-అటెన్షన్ సంబంధాలను లెక్కిస్తుంది
- ఫీడ్-ఫార్వర్డ్ నెట్వర్క్లు డేటాను ప్రాసెస్ చేస్తాయి
- అవుట్పుట్ సందర్భోచిత ప్రాతినిధ్యాలను (contextual representations) ఉత్పత్తి చేస్తుంది
సెల్ఫ్-అటెన్షన్ ఒక టోకెన్కు ఈ ప్రశ్న అడగడానికి అనుమతిస్తుంది: "నా అర్థం కోసం ఏ ఇతర టోకెన్లు ముఖ్యమైనవి?"
"The animal did not cross the street because it was tired" అనే వాక్యంలో, "it" అనే పదం జంతువును (animal) సూచిస్తుంది. సెల్ఫ్-అటెన్షన్ వల్ల మోడల్ "it"ను "street"కి బదులుగా "animal"కి అనుసంధానించగలదు.
అటెన్షన్ ఎలా పనిచేస్తుంది: ప్రతి టోకెన్ మూడు వెక్టర్లను (vectors) సృష్టిస్తుంది:
- క్వెరీ (Query): ఈ టోకెన్ దేని కోసం వెతుకుతోంది
- కీ (Key): ప్రతి టోకెన్ ఏమి అందిస్తోంది
- వాల్యూ (Value): తిరిగి పొందాల్సిన సమాచారం
మల్టీ-హెడ్ అటెన్షన్ (Multi-Head Attention) ఈ ప్రక్రియలను ఒకేసారి అనేకసార్లు నిర్వహిస్తుంది. ఒక హెడ్ వ్యాకరణాన్ని (grammar) గమనిస్తే, మరొకటి అర్థాన్ని (meaning) గమనించవచ్చు. ఇది మోడల్ను మరింత తెలివైనదిగా చేస్తుంది.
ఆర్కిటెక్చర్ పరిణామం: అసలు ట్రాన్స్ఫార్మర్ ఎన్కోడర్-డీకోడర్ (Encoder-Decoder) నిర్మాణాన్ని ఉపయోగించేది. GPT వంటి ఆధునిక LLMలు ఎక్కువగా డీకోడర్-ఓన్లీ (decoder-only) రకానికి చెందినవి. అవి తదుపరి టోకెన్ను అంచనా వేసి, దానిని క్రమంలో చేర్చి, మళ్ళీ అదే ప్రక్రియను పునరావృతం చేస్తాయి.
ఆధునిక LLMలు వేగంగా మరియు సమర్థవంతంగా ఉండటానికి పలు అప్గ్రేడ్లను ఉపయోగిస్తాయి:
- RoPE: పదాల క్రమాన్ని మోడల్ అర్థం చేసుకునే విధానాన్ని మెరుగుపరుస్తుంది
- RMSNorm: నార్మలైజేషన్ను సులభతరం చేస్తుంది
- GQA: జనరేషన్ సమయంలో మెమరీ ఖర్చును తగ్గిస్తుంది
- SwiGLU: న్యూరల్ లేయర్లను బలోపేతం చేస్తుంది
- MoE: పెద్ద ఎత్తున విస్తరించడానికి స్పార్స్ ఎక్స్పర్ట్లను (sparse experts) ఉపయోగిస్తుంది
ట్రాన్స్ఫార్మర్స్ ఒక క్రమాన్ని (sequence) సంబంధాల సమితిగా మార్చడం ద్వారా పనిచేస్తాయి. అవి స్టాక్డ్ బ్లాక్స్ (stacked blocks) ద్వారా ఈ సంబంధాలను మెరుగుపరుస్తాయి.
మీరు దీనిని నేర్చుకోవాలనుకుంటే, ఈ క్రమాన్ని అనుసరించండి:
- Attention Mechanism
- Self-Attention and QKV
- Multi-Head Attention
- Positional Encoding
- Decoder Architecture
- KV Cache and Efficient Attention
Source: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o
Optional learning community: https://t.me/GyaanSetuAi