𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸 -> டிரான்ஸ்பார்மர்கள் எவ்வாறு செயல்படுகின்றன
டிரான்ஸ்பார்மர்கள் AI-ஐ மாற்றியமைத்தன. அவை உரையை ஒவ்வொரு சொல்லாகப் படிப்பதை நிறுத்திவிட்டன.
RNN போன்ற பழைய மாடல்கள் படிப்படியாகச் செயல்பட்டன. டிரான்ஸ்பார்மர்கள் ஒரு தொடரில் உள்ள அனைத்துச் சொற்களையும் ஒரே நேரத்தில் ஒப்பிடுகின்றன. இந்த வடிவமைப்புதான் நவீன LLM-களைச் சாத்தியமாக்கியது.
டிரான்ஸ்பார்மர் என்பது 'அட்டென்ஷன்' (attention) அடிப்படையில் கட்டமைக்கப்பட்ட ஒரு நரம்பியல் வலைப்பின்னல் (neural network) ஆகும். இது டோக்கன்களின் (tokens) தொடரைப் பார்த்து, அவை எவ்வாறு ஒன்றோடொன்று தொடர்பு கொள்கின்றன என்பதைக் கற்றுக்கொள்கிறது. மொழி சூழலை (context) சார்ந்து இருப்பதால் இது மிகவும் முக்கியமானது. ஒரு சொல் மற்ற சொற்களுடனான அதன் உறவின் மூலமே பொருளைப் பெறுகிறது.
முக்கிய செயல்முறை:
- டோக்கன்கள் எம்பெடிங்ஸாக (embeddings) மாற்றப்படுகின்றன
- இடஞ்சார்ந்த தகவல் (Positional information) வரிசையைச் சேர்க்கிறது
- சுய-கவனம் (Self-attention) உறவுகளைக் கணக்கிடுகிறது
- ஃபீட்-ஃபார்வர்ட் நெட்வொர்க்குகள் தரவைச் செயலாக்குகின்றன
- வெளியீடு சூழல் சார்ந்த பிரதிநிதித்துவங்களை (contextual representations) உருவாக்குகிறது
சுய-கவனம் (Self-Attention) ஒரு டோக்கன் பின்வருமாறு கேட்க அனுமதிக்கிறது: எனது பொருளுக்கு மற்ற எந்த டோக்கன்கள் முக்கியம்?
"The animal did not cross the street because it was tired" என்ற வாக்கியத்தில், "it" என்ற சொல் விலங்கைக் குறிக்கிறது. சுய-கவனம் அந்த மாடல் "it" என்பதை "street" என்பதற்குப் பதிலாக "animal" உடன் இணைக்க அனுமதிக்கிறது.
அட்டென்ஷன் எவ்வாறு செயல்படுகிறது: ஒவ்வொரு டோக்கனும் மூன்று வெக்டர்களை (vectors) உருவாக்குகிறது:
- Query: இந்த டோக்கன் எதைத் தேடுகிறது
- Key: ஒவ்வொரு டோக்கனும் எதை வழங்குகிறது
- Value: மீட்டெடுக்கப்பட வேண்டிய தகவல்
மல்டி-ஹெட் அட்டென்ஷன் (Multi-Head Attention) இத்தகைய பல செயல்முறைகளை ஒரே நேரத்தில் இயக்குகிறது. ஒரு ஹெட் இலக்கணத்தைக் கண்காணிக்கலாம். மற்றொன்று பொருளைக் கண்காணிக்கலாம். இது மாடலை மிகவும் புத்திசாலித்தனமாக்குகிறது.
கட்டமைப்பின் பரிணாமம்: அசல் டிரான்ஸ்பார்மர் என்கோடர்-டிகோடர் (Encoder-Decoder) கட்டமைப்பைப் பயன்படுத்தியது. GPT போன்ற நவீன LLM-கள் பெரும்பாலும் டிகோடர்-மட்டும் (decoder-only) கொண்டவை. அவை அடுத்த டோக்கனைக் கணித்து, அதைத் தொடருடன் சேர்த்து, மீண்டும் மீண்டும் செய்கின்றன.
நவீன LLM-கள் வேகமாகவும் திறமையாகவும் இருக்க பல மேம்பாடுகளைப் பயன்படுத்துகின்றன:
- RoPE: மாடல் சொற்களின் வரிசையைப் புரிந்துகொள்ளும் முறையை மேம்படுத்துகிறது
- RMSNorm: நார்மலைசேஷனை (normalization) எளிமையாக்குகிறது
- GQA: உருவாக்கும் போது நினைவகச் செலவைக் (memory cost) குறைக்கிறது
- SwiGLU: நரம்பியல் அடுக்குகளை (neural layers) வலுப்படுத்துகிறது
- MoE: பெரிய அளவில் விரிவாக்க (scale) சிதறிய நிபுணர்களைப் (sparse experts) பயன்படுத்துகிறது
டிரான்ஸ்பார்மர்கள் ஒரு தொடரை உறவுகளின் தொகுப்பாக மாற்றுவதன் மூலம் செயல்படுகின்றன. அவை அடுக்கி வைக்கப்பட்ட பிளாக்குகளின் (stacked blocks) மூலம் இந்த உறவுகளைச் செம்மைப்படுத்துகின்றன.
நீங்கள் இதைக் கற்க விரும்பினால், இந்த வரிசையைப் பின்பற்றவும்:
- அட்டென்ஷன் மெக்கானிசம் (Attention Mechanism)
- சுய-கவனம் மற்றும் QKV (Self-Attention and QKV)
- மல்டி-ஹெட் அட்டென்ஷன் (Multi-Head Attention)
- பொசிஷனல் என்கோடிங் (Positional Encoding)
- டிகோடர் கட்டமைப்பு (Decoder Architecture)
- KV கேச் மற்றும் திறமையான அட்டென்ஷன் (KV Cache and Efficient Attention)
ஆதாரம்: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o
விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi