ਟ੍ਰਾਂਸਫਾਰਮਰ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ

ਟ੍ਰਾਂਸਫਾਰਮਰਜ਼ ਨੇ AI ਨੂੰ ਬਦਲ ਦਿੱਤਾ। ਉਹਨਾਂ ਨੇ ਟੈਕਸਟ ਨੂੰ ਇੱਕ ਵਾਰ ਵਿੱਚ ਇੱਕ ਸ਼ਬਦ ਕਰਕੇ ਪੜ੍ਹਨਾ ਬੰਦ ਕਰ ਦਿੱਤਾ।

RNNs ਵਰਗੇ ਪੁਰਾਣੇ ਮਾਡਲ ਕਦਮ-ਦਰ-ਕਦਮ ਅੱਗੇ ਵਧਦੇ ਸਨ। ਟ੍ਰਾਂਸਫਾਰਮਰਜ਼ ਇੱਕ ਸੀਕੁਇੰਸ (sequence) ਵਿੱਚ ਸਾਰੇ ਸ਼ਬਦਾਂ ਦੀ ਇੱਕੋ ਸਮੇਂ ਤੁਲਨਾ ਕਰਦੇ ਹਨ। ਇਹ ਡਿਜ਼ਾਈਨ ਆਧੁਨਿਕ LLMs ਨੂੰ ਸੰਭਵ ਬਣਾਉਂਦਾ ਹੈ।

ਟ੍ਰਾਂਸਫਾਰਮਰ ਇੱਕ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਹੈ ਜੋ attention 'ਤੇ ਬਣਿਆ ਹੁੰਦਾ ਹੈ। ਇਹ ਟੋਕਨਾਂ ਦੇ ਇੱਕ ਸੀਕੁਇੰਸ ਨੂੰ ਦੇਖਦਾ ਹੈ ਅਤੇ ਸਿੱਖਦਾ ਹੈ ਕਿ ਉਹ ਇੱਕ ਦੂਜੇ ਨਾਲ ਕਿਵੇਂ ਸਬੰਧਤ ਹਨ। ਇਹ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਭਾਸ਼ਾ ਸੰਦਰਭ (context) 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ। ਇੱਕ ਸ਼ਬਦ ਦਾ ਅਰਥ ਸਿਰਫ਼ ਦੂਜੇ ਸ਼ਬਦਾਂ ਨਾਲ ਉਸਦੇ ਸਬੰਧ ਰਾਹੀਂ ਹੀ ਹੁੰਦਾ ਹੈ।

ਮੁੱਖ ਪ੍ਰਕਿਰਿਆ:

Self-Attention ਇੱਕ ਟੋਕਨ ਨੂੰ ਇਹ ਪੁੱਛਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੀ ਹੈ: ਮੇਰੇ ਅਰਥ ਲਈ ਹੋਰ ਕਿਹੜੇ ਟੋਕਨ ਮਹੱਤਵਪੂਰਨ ਹਨ?

ਵਾਕ "The animal did not cross the street because it was tired" ਵਿੱਚ, ਸ਼ਬਦ "it" ਜਾਨਵਰ (animal) ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦਾ ਹੈ। Self-attention ਮਾਡਲ ਨੂੰ "it" ਨੂੰ "street" ਦੀ ਬਜਾਏ "animal" ਨਾਲ ਜੋੜਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੀ ਹੈ।

Attention ਕਿਵੇਂ ਕੰਮ ਕਰਦੀ ਹੈ: ਹਰ ਟੋਕਨ ਤਿੰਨ ਵੈਕਟਰ (vectors) ਬਣਾਉਂਦਾ ਹੈ:

Multi-Head Attention ਇਹਨਾਂ ਵਿੱਚੋਂ ਕਈ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਇੱਕੋ ਸਮੇਂ ਚਲਾਉਂਦੀ ਹੈ। ਇੱਕ ਹੈੱਡ ਵਿਆਕਰਣ (grammar) ਨੂੰ ਟਰੈਕ ਕਰ ਸਕਦਾ ਹੈ। ਦੂਜਾ ਅਰਥ ਨੂੰ ਟਰੈਕ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਮਾਡਲ ਨੂੰ ਹੋਰ ਸਮਾਰਟ ਬਣਾਉਂਦਾ ਹੈ।

ਆਰਕੀਟੈਕਚਰ ਦਾ ਵਿਕਾਸ: ਅਸਲ ਟ੍ਰਾਂਸਫਾਰਮਰ ਇੱਕ Encoder-Decoder ਬਣਤਰ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਸੀ। GPT ਵਰਗੇ ਆਧੁਨਿਕ LLMs ਜ਼ਿਆਦਾਤਰ decoder-only ਹੁੰਦੇ ਹਨ। ਉਹ ਅਗਲੇ ਟੋਕਨ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦੇ ਹਨ, ਉਸਨੂੰ ਸੀਕੁਇੰਸ ਵਿੱਚ ਜੋੜਦੇ ਹਨ, ਅਤੇ ਇਸੇ ਨੂੰ ਦੁਹਰਾਉਂਦੇ ਹਨ।

ਆਧੁਨਿਕ LLMs ਤੇਜ਼ ਅਤੇ ਕੁਸ਼ਲ ਰਹਿਣ ਲਈ ਕਈ ਅੱਪਗ੍ਰੇਡ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ:

ਟ੍ਰਾਂਸਫਾਰਮਰਜ਼ ਇੱਕ ਸੀਕੁਇੰਸ ਨੂੰ ਸਬੰਧਾਂ ਦੇ ਇੱਕ ਸਮੂਹ ਵਿੱਚ ਬਦਲ ਕੇ ਕੰਮ ਕਰਦੇ ਹਨ। ਉਹ ਸਟੈਕ ਕੀਤੇ ਬਲਾਕਾਂ (stacked blocks) ਰਾਹੀਂ ਇਹਨਾਂ ਸਬੰਧਾਂ ਨੂੰ ਸ਼ੁੱਧ ਕਰਦੇ ਹਨ।

ਜੇਕਰ ਤੁਸੀਂ ਇਹ ਸਿੱਖਣਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਇਸ ਕ੍ਰਮ ਦੀ ਪਾਲਣਾ ਕਰੋ:

  1. Attention Mechanism
  2. Self-Attention ਅਤੇ QKV
  3. Multi-Head Attention
  4. Positional Encoding
  5. Decoder Architecture
  6. KV Cache ਅਤੇ Efficient Attention

ਸਰੋਤ: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi