𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

📅4 hours ago⏱2 min read

ਟ੍ਰਾਂਸਫਾਰਮਰ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ

ਟ੍ਰਾਂਸਫਾਰਮਰਜ਼ ਨੇ AI ਨੂੰ ਬਦਲ ਦਿੱਤਾ। ਉਹਨਾਂ ਨੇ ਟੈਕਸਟ ਨੂੰ ਇੱਕ ਵਾਰ ਵਿੱਚ ਇੱਕ ਸ਼ਬਦ ਕਰਕੇ ਪੜ੍ਹਨਾ ਬੰਦ ਕਰ ਦਿੱਤਾ।

RNNs ਵਰਗੇ ਪੁਰਾਣੇ ਮਾਡਲ ਕਦਮ-ਦਰ-ਕਦਮ ਅੱਗੇ ਵਧਦੇ ਸਨ। ਟ੍ਰਾਂਸਫਾਰਮਰਜ਼ ਇੱਕ ਸੀਕੁਇੰਸ (sequence) ਵਿੱਚ ਸਾਰੇ ਸ਼ਬਦਾਂ ਦੀ ਇੱਕੋ ਸਮੇਂ ਤੁਲਨਾ ਕਰਦੇ ਹਨ। ਇਹ ਡਿਜ਼ਾਈਨ ਆਧੁਨਿਕ LLMs ਨੂੰ ਸੰਭਵ ਬਣਾਉਂਦਾ ਹੈ।

ਟ੍ਰਾਂਸਫਾਰਮਰ ਇੱਕ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਹੈ ਜੋ attention 'ਤੇ ਬਣਿਆ ਹੁੰਦਾ ਹੈ। ਇਹ ਟੋਕਨਾਂ ਦੇ ਇੱਕ ਸੀਕੁਇੰਸ ਨੂੰ ਦੇਖਦਾ ਹੈ ਅਤੇ ਸਿੱਖਦਾ ਹੈ ਕਿ ਉਹ ਇੱਕ ਦੂਜੇ ਨਾਲ ਕਿਵੇਂ ਸਬੰਧਤ ਹਨ। ਇਹ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਭਾਸ਼ਾ ਸੰਦਰਭ (context) 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। ਇੱਕ ਸ਼ਬਦ ਦਾ ਅਰਥ ਸਿਰਫ਼ ਦੂਜੇ ਸ਼ਬਦਾਂ ਨਾਲ ਉਸਦੇ ਸਬੰਧ ਰਾਹੀਂ ਹੀ ਹੁੰਦਾ ਹੈ।

ਮੁੱਖ ਪ੍ਰਕਿਰਿਆ:

ਟੋਕਨ ਐਂਬੈਡਿੰਗਜ਼ (embeddings) ਵਿੱਚ ਬਦਲ ਜਾਂਦੇ ਹਨ
ਪੋਜੀਸ਼ਨਲ ਜਾਣਕਾਰੀ (Positional information) ਕ੍ਰਮ ਜੋੜਦੀ ਹੈ
ਸੈਲਫ-ਅਟੈਂਸ਼ਨ (Self-attention) ਸਬੰਧਾਂ ਦੀ ਗਣਨਾ ਕਰਦੀ ਹੈ
ਫੀਡ-ਫਾਰਵਰਡ ਨੈੱਟਵਰਕ ਡੇਟਾ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਦੇ ਹਨ
ਆਉਟਪੁੱਟ ਸੰਦਰਭਿਕ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ (contextual representations) ਪੈਦਾ ਕਰਦਾ ਹੈ

Self-Attention ਇੱਕ ਟੋਕਨ ਨੂੰ ਇਹ ਪੁੱਛਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੀ ਹੈ: ਮੇਰੇ ਅਰਥ ਲਈ ਹੋਰ ਕਿਹੜੇ ਟੋਕਨ ਮਹੱਤਵਪੂਰਨ ਹਨ?

ਵਾਕ "The animal did not cross the street because it was tired" ਵਿੱਚ, ਸ਼ਬਦ "it" ਜਾਨਵਰ (animal) ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦਾ ਹੈ। Self-attention ਮਾਡਲ ਨੂੰ "it" ਨੂੰ "street" ਦੀ ਬਜਾਏ "animal" ਨਾਲ ਜੋੜਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੀ ਹੈ।

Attention ਕਿਵੇਂ ਕੰਮ ਕਰਦੀ ਹੈ: ਹਰ ਟੋਕਨ ਤਿੰਨ ਵੈਕਟਰ (vectors) ਬਣਾਉਂਦਾ ਹੈ:

Query: ਇਹ ਟੋਕਨ ਕੀ ਲੱਭ ਰਿਹਾ ਹੈ
Key: ਹਰ ਟੋਕਨ ਕੀ ਪੇਸ਼ ਕਰਦਾ ਹੈ
Value: ਪ੍ਰਾਪਤ ਕੀਤੀ ਜਾਣਕਾਰੀ

Multi-Head Attention ਇਹਨਾਂ ਵਿੱਚੋਂ ਕਈ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਇੱਕੋ ਸਮੇਂ ਚਲਾਉਂਦੀ ਹੈ। ਇੱਕ ਹੈੱਡ ਵਿਆਕਰਣ (grammar) ਨੂੰ ਟਰੈਕ ਕਰ ਸਕਦਾ ਹੈ। ਦੂਜਾ ਅਰਥ ਨੂੰ ਟਰੈਕ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਮਾਡਲ ਨੂੰ ਹੋਰ ਸਮਾਰਟ ਬਣਾਉਂਦਾ ਹੈ।

ਆਰਕੀਟੈਕਚਰ ਦਾ ਵਿਕਾਸ: ਅਸਲ ਟ੍ਰਾਂਸਫਾਰਮਰ ਇੱਕ Encoder-Decoder ਬਣਤਰ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਸੀ। GPT ਵਰਗੇ ਆਧੁਨਿਕ LLMs ਜ਼ਿਆਦਾਤਰ decoder-only ਹੁੰਦੇ ਹਨ। ਉਹ ਅਗਲੇ ਟੋਕਨ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦੇ ਹਨ, ਉਸਨੂੰ ਸੀਕੁਇੰਸ ਵਿੱਚ ਜੋੜਦੇ ਹਨ, ਅਤੇ ਇਸੇ ਨੂੰ ਦੁਹਰਾਉਂਦੇ ਹਨ।

ਆਧੁਨਿਕ LLMs ਤੇਜ਼ ਅਤੇ ਕੁਸ਼ਲ ਰਹਿਣ ਲਈ ਕਈ ਅੱਪਗ੍ਰੇਡ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ:

RoPE: ਮਾਡਲ ਸ਼ਬਦਾਂ ਦੇ ਕ੍ਰਮ ਨੂੰ ਕਿਵੇਂ ਸਮਝਦਾ ਹੈ, ਇਸ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦਾ ਹੈ
RMSNorm: ਨਾਰਮਲਾਈਜ਼ੇਸ਼ਨ (normalization) ਨੂੰ ਸਰਲ ਬਣਾਉਂਦਾ ਹੈ
GQA: ਜਨਰੇਸ਼ਨ ਦੌਰਾਨ ਮੈਮੋਰੀ ਦੀ ਲਾਗਤ ਘਟਾਉਂਦਾ ਹੈ
SwiGLU: ਨਿਊਰਲ ਲੇਅਰਾਂ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਦਾ ਹੈ
MoE: ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਕੰਮ ਕਰਨ ਲਈ sparse experts ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ

ਟ੍ਰਾਂਸਫਾਰਮਰਜ਼ ਇੱਕ ਸੀਕੁਇੰਸ ਨੂੰ ਸਬੰਧਾਂ ਦੇ ਇੱਕ ਸਮੂਹ ਵਿੱਚ ਬਦਲ ਕੇ ਕੰਮ ਕਰਦੇ ਹਨ। ਉਹ ਸਟੈਕ ਕੀਤੇ ਬਲਾਕਾਂ (stacked blocks) ਰਾਹੀਂ ਇਹਨਾਂ ਸਬੰਧਾਂ ਨੂੰ ਸ਼ੁੱਧ ਕਰਦੇ ਹਨ।

ਜੇਕਰ ਤੁਸੀਂ ਇਹ ਸਿੱਖਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਇਸ ਕ੍ਰਮ ਦੀ ਪਾਲਣਾ ਕਰੋ:

Attention Mechanism
Self-Attention ਅਤੇ QKV
Multi-Head Attention
Positional Encoding
Decoder Architecture
KV Cache ਅਤੇ Efficient Attention

ਸਰੋਤ: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗛𝗼𝘄 𝗔𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗦𝗥𝗘 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗡𝗔𝗕𝗟𝗔: 𝗔𝗱𝗮𝗽𝘁𝗶𝘃𝗲 𝗕𝗹𝗼𝗰𝗸 𝗟𝗲𝘃𝗲𝗹 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻

𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴: 𝗧𝗵𝗲 𝗙𝘂𝘁𝘂𝗿𝗲 𝗼𝗳 𝗔𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝗰𝗲