ട്രാൻസ്ഫോർമറുകൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു

📅3 hours ago⏱2 min read

ട്രാൻസ്ഫോർമറുകൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു

ട്രാൻസ്ഫോർമറുകൾ AI-യിൽ വിപ്ലവകരമായ മാറ്റങ്ങൾ വരുത്തി. അവ വാചകങ്ങൾ ഓരോ വാക്കുകളായി വായിക്കുന്ന രീതി അവസാനിപ്പിച്ചു.

RNN പോലുള്ള പഴയ മോഡലുകൾ ഘട്ടം ഘട്ടമായാണ് പ്രവർത്തിച്ചിരുന്നത്. എന്നാൽ ട്രാൻസ്ഫോർമറുകൾ ഒരു ക്രമത്തിലുള്ള (sequence) എല്ലാ വാക്കുകളെയും ഒരേസമയം താരതമ്യം ചെയ്യുന്നു. ഈ രൂപകൽപ്പനയാണ് ആധുനിക LLM-കൾ സാധ്യമാക്കിയത്.

അറ്റൻഷൻ (attention) അടിസ്ഥാനമാക്കി നിർമ്മിച്ച ഒരു ന്യൂറൽ നെറ്റ്‌വർക്കാണ് ട്രാൻസ്ഫോർമർ. ഇത് ടോക്കണുകളുടെ ഒരു ക്രമം പരിശോധിക്കുകയും അവ തമ്മിലുള്ള ബന്ധം പഠിക്കുകയും ചെയ്യുന്നു. ഭാഷ സന്ദർഭത്തെ (context) ആശ്രയിച്ചിരിക്കുന്നതിനാൽ ഇത് വളരെ പ്രധാനമാണ്. മറ്റ് വാക്കുകളുമായുള്ള ബന്ധത്തിലൂടെ മാത്രമേ ഒരു വാക്കിന് അർത്ഥമുണ്ടാകൂ.

പ്രധാന പ്രക്രിയ:

ടോക്കണുകൾ എംബഡിംഗുകളായി (embeddings) മാറുന്നു
പൊസിഷണൽ ഇൻഫർമേഷൻ ക്രമം നൽകുന്നു
സെൽഫ്-അറ്റൻഷൻ ബന്ധങ്ങൾ കണക്കാക്കുന്നു
ഫീഡ്-ഫോർവേഡ് നെറ്റ്‌വർക്കുകൾ ഡാറ്റ പ്രോസസ്സ് ചെയ്യുന്നു
ഔട്ട്പുട്ട് സന്ദർഭോചിതമായ പ്രതിനിധീകരണം (contextual representations) നൽകുന്നു

സെൽഫ്-അറ്റൻഷൻ ഒരു ടോക്കണിന് ഇപ്രകാരം ചോദിക്കാൻ അനുവദിക്കുന്നു: "എന്റെ അർത്ഥത്തിന് മറ്റ് ഏതെല്ലാം ടോക്കണുകളാണ് പ്രസക്തം?"

"The animal did not cross the street because it was tired" എന്ന വാചകത്തിൽ, "it" എന്നത് മൃഗത്തെയാണ് സൂചിപ്പിക്കുന്നത്. സെൽഫ്-അറ്റൻഷൻ വഴി മോഡലിന് "it" എന്ന വാക്കിനെ "street"-ന് പകരം "animal"-മായി ബന്ധിപ്പിക്കാൻ സാധിക്കുന്നു.

അറ്റൻഷൻ എങ്ങനെ പ്രവർത്തിക്കുന്നു: ഓരോ ടോക്കണും മൂന്ന് വെക്റ്ററുകൾ (vectors) നിർമ്മിക്കുന്നു:

ക്വറി (Query): ഈ ടോക്കൺ എന്തിനെയാണ് തിരയുന്നത്
കീ (Key): ഓരോ ടോക്കണും എന്ത് നൽകുന്നു
വാല്യൂ (Value): വീണ്ടെടുക്കേണ്ട വിവരങ്ങൾ

മൾട്ടി-ഹെഡ് അറ്റൻഷൻ (Multi-Head Attention) ഇത്തരം പ്രക്രിയകൾ ഒന്നിലധികം തവണ ഒരേസമയം പ്രവർത്തിപ്പിക്കുന്നു. ഒരു ഹെഡ് വ്യാകരണം (grammar) ശ്രദ്ധിച്ചേക്കാം, മറ്റൊന്ന് അർത്ഥം ശ്രദ്ധിച്ചേക്കാം. ഇത് മോഡലിനെ കൂടുതൽ ബുദ്ധിമാനാക്കുന്നു.

ആർക്കിടെക്ചറിന്റെ പരിണാമം: യഥാർത്ഥ ട്രാൻസ്ഫോർമർ ഒരു എൻകോഡർ-ഡീകോഡർ (Encoder-Decoder) ഘടനയാണ് ഉപയോഗിച്ചിരുന്നത്. എന്നാൽ GPT പോലുള്ള ആധുനിക LLM-കൾ മിക്കവാറും ഡീകോഡർ-ഒൺലി (decoder-only) ആണ്. അവ അടുത്ത ടോക്കൺ പ്രവചിക്കുകയും, അത് ക്രമത്തിലേക്ക് ചേർക്കുകയും, ഈ പ്രക്രിയ ആവർത്തിക്കുകയും ചെയ്യുന്നു.

വേഗതയും കാര്യക്ഷമതയും നിലനിർത്താൻ ആധുനിക LLM-കൾ പല പരിഷ്കാരങ്ങളും ഉപയോഗിക്കുന്നു:

RoPE: വാക്കുകളുടെ ക്രമം മനസ്സിലാക്കാനുള്ള മോഡലിന്റെ കഴിവിനെ മെച്ചപ്പെടുത്തുന്നു
RMSNorm: നോർമലൈസേഷൻ ലളിതമാക്കുന്നു
GQA: ജനറേഷൻ സമയത്തെ മെമ്മറി ചിലവ് കുറയ്ക്കുന്നു
SwiGLU: ന്യൂറൽ ലെയറുകളെ ശക്തിപ്പെടുത്തുന്നു
MoE: വലിയ തോതിൽ പ്രവർത്തിക്കാൻ സ്പാർസ് എക്സ്പെർട്ട്സിനെ (sparse experts) ഉപയോഗിക്കുന്നു

ഒരു ക്രമത്തെ (sequence) ബന്ധങ്ങളുടെ ഒരു കൂട്ടമായി മാറ്റുന്നതിലൂടെയാണ് ട്രാൻസ്ഫോർമറുകൾ പ്രവർത്തിക്കുന്നത്. സ്റ്റാക്ക് ചെയ്ത ബ്ലോക്കുകളിലൂടെ (stacked blocks) അവ ഈ ബന്ധങ്ങളെ കൂടുതൽ പരിഷ്കരിക്കുന്നു.

നിങ്ങൾക്ക് ഇത് പഠിക്കണമെന്നുണ്ടെങ്കിൽ, ഈ ക്രമം പിന്തുടരുക:

Attention Mechanism
Self-Attention and QKV
Multi-Head Attention
Positional Encoding
Decoder Architecture
KV Cache and Efficient Attention

Source: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

Optional learning community: https://t.me/GyaanSetuAi

ട്രാൻസ്ഫോർമറുകൾ എങ്ങനെ പ്രവർത്തിക്കുന്നു

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗛𝗼𝘄 𝗔𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗦𝗥𝗘 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗡𝗔𝗕𝗟𝗔: 𝗔𝗱𝗮𝗽𝘁𝗶𝘃𝗲 𝗕𝗹𝗼𝗰𝗸 𝗟𝗲𝘃𝗲𝗹 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻

𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴: 𝗧𝗵𝗲 𝗙𝘂𝘁𝘂𝗿𝗲 𝗼𝗳 𝗔𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝗰𝗲