𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸 -> டிரான்ஸ்பார்மர்கள் எவ்வாறு செயல்படுகின்றன

டிரான்ஸ்பார்மர்கள் AI-ஐ மாற்றியமைத்தன. அவை உரையை ஒவ்வொரு சொல்லாகப் படிப்பதை நிறுத்திவிட்டன.

RNN போன்ற பழைய மாடல்கள் படிப்படியாகச் செயல்பட்டன. டிரான்ஸ்பார்மர்கள் ஒரு தொடரில் உள்ள அனைத்துச் சொற்களையும் ஒரே நேரத்தில் ஒப்பிடுகின்றன. இந்த வடிவமைப்புதான் நவீன LLM-களைச் சாத்தியமாக்கியது.

டிரான்ஸ்பார்மர் என்பது 'அட்டென்ஷன்' (attention) அடிப்படையில் கட்டமைக்கப்பட்ட ஒரு நரம்பியல் வலைப்பின்னல் (neural network) ஆகும். இது டோக்கன்களின் (tokens) தொடரைப் பார்த்து, அவை எவ்வாறு ஒன்றோடொன்று தொடர்பு கொள்கின்றன என்பதைக் கற்றுக்கொள்கிறது. மொழி சூழலை (context) சார்ந்து இருப்பதால் இது மிகவும் முக்கியமானது. ஒரு சொல் மற்ற சொற்களுடனான அதன் உறவின் மூலமே பொருளைப் பெறுகிறது.

முக்கிய செயல்முறை:

சுய-கவனம் (Self-Attention) ஒரு டோக்கன் பின்வருமாறு கேட்க அனுமதிக்கிறது: எனது பொருளுக்கு மற்ற எந்த டோக்கன்கள் முக்கியம்?

"The animal did not cross the street because it was tired" என்ற வாக்கியத்தில், "it" என்ற சொல் விலங்கைக் குறிக்கிறது. சுய-கவனம் அந்த மாடல் "it" என்பதை "street" என்பதற்குப் பதிலாக "animal" உடன் இணைக்க அனுமதிக்கிறது.

அட்டென்ஷன் எவ்வாறு செயல்படுகிறது: ஒவ்வொரு டோக்கனும் மூன்று வெக்டர்களை (vectors) உருவாக்குகிறது:

மல்டி-ஹெட் அட்டென்ஷன் (Multi-Head Attention) இத்தகைய பல செயல்முறைகளை ஒரே நேரத்தில் இயக்குகிறது. ஒரு ஹெட் இலக்கணத்தைக் கண்காணிக்கலாம். மற்றொன்று பொருளைக் கண்காணிக்கலாம். இது மாடலை மிகவும் புத்திசாலித்தனமாக்குகிறது.

கட்டமைப்பின் பரிணாமம்: அசல் டிரான்ஸ்பார்மர் என்கோடர்-டிகோடர் (Encoder-Decoder) கட்டமைப்பைப் பயன்படுத்தியது. GPT போன்ற நவீன LLM-கள் பெரும்பாலும் டிகோடர்-மட்டும் (decoder-only) கொண்டவை. அவை அடுத்த டோக்கனைக் கணித்து, அதைத் தொடருடன் சேர்த்து, மீண்டும் மீண்டும் செய்கின்றன.

நவீன LLM-கள் வேகமாகவும் திறமையாகவும் இருக்க பல மேம்பாடுகளைப் பயன்படுத்துகின்றன:

டிரான்ஸ்பார்மர்கள் ஒரு தொடரை உறவுகளின் தொகுப்பாக மாற்றுவதன் மூலம் செயல்படுகின்றன. அவை அடுக்கி வைக்கப்பட்ட பிளாக்குகளின் (stacked blocks) மூலம் இந்த உறவுகளைச் செம்மைப்படுத்துகின்றன.

நீங்கள் இதைக் கற்க விரும்பினால், இந்த வரிசையைப் பின்பற்றவும்:

  1. அட்டென்ஷன் மெக்கானிசம் (Attention Mechanism)
  2. சுய-கவனம் மற்றும் QKV (Self-Attention and QKV)
  3. மல்டி-ஹெட் அட்டென்ஷன் (Multi-Head Attention)
  4. பொசிஷனல் என்கோடிங் (Positional Encoding)
  5. டிகோடர் கட்டமைப்பு (Decoder Architecture)
  6. KV கேச் மற்றும் திறமையான அட்டென்ஷன் (KV Cache and Efficient Attention)

ஆதாரம்: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi