ਟ੍ਰਾਂਸਫਾਰਮਰ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ
ਟ੍ਰਾਂਸਫਾਰਮਰਜ਼ ਨੇ AI ਨੂੰ ਬਦਲ ਦਿੱਤਾ। ਉਹਨਾਂ ਨੇ ਟੈਕਸਟ ਨੂੰ ਇੱਕ ਵਾਰ ਵਿੱਚ ਇੱਕ ਸ਼ਬਦ ਕਰਕੇ ਪੜ੍ਹਨਾ ਬੰਦ ਕਰ ਦਿੱਤਾ।
RNNs ਵਰਗੇ ਪੁਰਾਣੇ ਮਾਡਲ ਕਦਮ-ਦਰ-ਕਦਮ ਅੱਗੇ ਵਧਦੇ ਸਨ। ਟ੍ਰਾਂਸਫਾਰਮਰਜ਼ ਇੱਕ ਸੀਕੁਇੰਸ (sequence) ਵਿੱਚ ਸਾਰੇ ਸ਼ਬਦਾਂ ਦੀ ਇੱਕੋ ਸਮੇਂ ਤੁਲਨਾ ਕਰਦੇ ਹਨ। ਇਹ ਡਿਜ਼ਾਈਨ ਆਧੁਨਿਕ LLMs ਨੂੰ ਸੰਭਵ ਬਣਾਉਂਦਾ ਹੈ।
ਟ੍ਰਾਂਸਫਾਰਮਰ ਇੱਕ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਹੈ ਜੋ attention 'ਤੇ ਬਣਿਆ ਹੁੰਦਾ ਹੈ। ਇਹ ਟੋਕਨਾਂ ਦੇ ਇੱਕ ਸੀਕੁਇੰਸ ਨੂੰ ਦੇਖਦਾ ਹੈ ਅਤੇ ਸਿੱਖਦਾ ਹੈ ਕਿ ਉਹ ਇੱਕ ਦੂਜੇ ਨਾਲ ਕਿਵੇਂ ਸਬੰਧਤ ਹਨ। ਇਹ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਭਾਸ਼ਾ ਸੰਦਰਭ (context) 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। ਇੱਕ ਸ਼ਬਦ ਦਾ ਅਰਥ ਸਿਰਫ਼ ਦੂਜੇ ਸ਼ਬਦਾਂ ਨਾਲ ਉਸਦੇ ਸਬੰਧ ਰਾਹੀਂ ਹੀ ਹੁੰਦਾ ਹੈ।
ਮੁੱਖ ਪ੍ਰਕਿਰਿਆ:
- ਟੋਕਨ ਐਂਬੈਡਿੰਗਜ਼ (embeddings) ਵਿੱਚ ਬਦਲ ਜਾਂਦੇ ਹਨ
- ਪੋਜੀਸ਼ਨਲ ਜਾਣਕਾਰੀ (Positional information) ਕ੍ਰਮ ਜੋੜਦੀ ਹੈ
- ਸੈਲਫ-ਅਟੈਂਸ਼ਨ (Self-attention) ਸਬੰਧਾਂ ਦੀ ਗਣਨਾ ਕਰਦੀ ਹੈ
- ਫੀਡ-ਫਾਰਵਰਡ ਨੈੱਟਵਰਕ ਡੇਟਾ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਦੇ ਹਨ
- ਆਉਟਪੁੱਟ ਸੰਦਰਭਿਕ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ (contextual representations) ਪੈਦਾ ਕਰਦਾ ਹੈ
Self-Attention ਇੱਕ ਟੋਕਨ ਨੂੰ ਇਹ ਪੁੱਛਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੀ ਹੈ: ਮੇਰੇ ਅਰਥ ਲਈ ਹੋਰ ਕਿਹੜੇ ਟੋਕਨ ਮਹੱਤਵਪੂਰਨ ਹਨ?
ਵਾਕ "The animal did not cross the street because it was tired" ਵਿੱਚ, ਸ਼ਬਦ "it" ਜਾਨਵਰ (animal) ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦਾ ਹੈ। Self-attention ਮਾਡਲ ਨੂੰ "it" ਨੂੰ "street" ਦੀ ਬਜਾਏ "animal" ਨਾਲ ਜੋੜਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੀ ਹੈ।
Attention ਕਿਵੇਂ ਕੰਮ ਕਰਦੀ ਹੈ: ਹਰ ਟੋਕਨ ਤਿੰਨ ਵੈਕਟਰ (vectors) ਬਣਾਉਂਦਾ ਹੈ:
- Query: ਇਹ ਟੋਕਨ ਕੀ ਲੱਭ ਰਿਹਾ ਹੈ
- Key: ਹਰ ਟੋਕਨ ਕੀ ਪੇਸ਼ ਕਰਦਾ ਹੈ
- Value: ਪ੍ਰਾਪਤ ਕੀਤੀ ਜਾਣਕਾਰੀ
Multi-Head Attention ਇਹਨਾਂ ਵਿੱਚੋਂ ਕਈ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਇੱਕੋ ਸਮੇਂ ਚਲਾਉਂਦੀ ਹੈ। ਇੱਕ ਹੈੱਡ ਵਿਆਕਰਣ (grammar) ਨੂੰ ਟਰੈਕ ਕਰ ਸਕਦਾ ਹੈ। ਦੂਜਾ ਅਰਥ ਨੂੰ ਟਰੈਕ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਮਾਡਲ ਨੂੰ ਹੋਰ ਸਮਾਰਟ ਬਣਾਉਂਦਾ ਹੈ।
ਆਰਕੀਟੈਕਚਰ ਦਾ ਵਿਕਾਸ: ਅਸਲ ਟ੍ਰਾਂਸਫਾਰਮਰ ਇੱਕ Encoder-Decoder ਬਣਤਰ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਸੀ। GPT ਵਰਗੇ ਆਧੁਨਿਕ LLMs ਜ਼ਿਆਦਾਤਰ decoder-only ਹੁੰਦੇ ਹਨ। ਉਹ ਅਗਲੇ ਟੋਕਨ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦੇ ਹਨ, ਉਸਨੂੰ ਸੀਕੁਇੰਸ ਵਿੱਚ ਜੋੜਦੇ ਹਨ, ਅਤੇ ਇਸੇ ਨੂੰ ਦੁਹਰਾਉਂਦੇ ਹਨ।
ਆਧੁਨਿਕ LLMs ਤੇਜ਼ ਅਤੇ ਕੁਸ਼ਲ ਰਹਿਣ ਲਈ ਕਈ ਅੱਪਗ੍ਰੇਡ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ:
- RoPE: ਮਾਡਲ ਸ਼ਬਦਾਂ ਦੇ ਕ੍ਰਮ ਨੂੰ ਕਿਵੇਂ ਸਮਝਦਾ ਹੈ, ਇਸ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦਾ ਹੈ
- RMSNorm: ਨਾਰਮਲਾਈਜ਼ੇਸ਼ਨ (normalization) ਨੂੰ ਸਰਲ ਬਣਾਉਂਦਾ ਹੈ
- GQA: ਜਨਰੇਸ਼ਨ ਦੌਰਾਨ ਮੈਮੋਰੀ ਦੀ ਲਾਗਤ ਘਟਾਉਂਦਾ ਹੈ
- SwiGLU: ਨਿਊਰਲ ਲੇਅਰਾਂ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਦਾ ਹੈ
- MoE: ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਕੰਮ ਕਰਨ ਲਈ sparse experts ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ
ਟ੍ਰਾਂਸਫਾਰਮਰਜ਼ ਇੱਕ ਸੀਕੁਇੰਸ ਨੂੰ ਸਬੰਧਾਂ ਦੇ ਇੱਕ ਸਮੂਹ ਵਿੱਚ ਬਦਲ ਕੇ ਕੰਮ ਕਰਦੇ ਹਨ। ਉਹ ਸਟੈਕ ਕੀਤੇ ਬਲਾਕਾਂ (stacked blocks) ਰਾਹੀਂ ਇਹਨਾਂ ਸਬੰਧਾਂ ਨੂੰ ਸ਼ੁੱਧ ਕਰਦੇ ਹਨ।
ਜੇਕਰ ਤੁਸੀਂ ਇਹ ਸਿੱਖਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਇਸ ਕ੍ਰਮ ਦੀ ਪਾਲਣਾ ਕਰੋ:
- Attention Mechanism
- Self-Attention ਅਤੇ QKV
- Multi-Head Attention
- Positional Encoding
- Decoder Architecture
- KV Cache ਅਤੇ Efficient Attention
ਸਰੋਤ: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o
ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi