GPT ਨੂੰ ਨਹੀਂ ਪਤਾ ਕਿ ਸ਼ਬਦਾਂ ਦਾ ਕੀ ਮਤਲਬ ਹੈ
GPT ਭਾਸ਼ਾ ਨੂੰ ਨਹੀਂ ਸਮਝਦਾ। ਇਹ ਨੰਬਰਾਂ ਨੂੰ ਸਮਝਦਾ ਹੈ।
ਜ਼ਿਆਦਾਤਰ ਲੋਕ attention ਨੂੰ ਰੂਪਕਾਂ (metaphors) ਨਾਲ ਸਮਝਾਉਂਦੇ ਹਨ। ਉਹ ਤੀਰਾਂ ਜਾਂ ਚਮਕਦੇ ਹੋਏ ਸੰਬੰਧਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਇਹ ਇਸ ਤਰ੍ਹਾਂ ਕੰਮ ਨਹੀਂ ਕਰਦਾ।
ਮੈਂ ਹੱਥ ਨਾਲ ਗਣਿਤ ਦਾ ਪਤਾ ਲਗਾਇਆ। ਮੈਂ ਅਸਲ matrix multiplications ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਇੱਥੇ ਅਸਲੀਅਤ ਹੈ ਕਿ ਇੱਕ transformer ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ।
ਪ੍ਰਕਿਰਿਆ embeddings ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ। ਹਰ ਸ਼ਬਦ ਨੂੰ ਇੱਕ ਰੈਂਡਮ coordinate ਮਿਲਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, "love" ਸ਼ਬਦ [0.10, 0.30] ਤੋਂ ਸ਼ੁਰੂ ਹੋ ਸਕਦਾ ਹੈ। ਸ਼ੁਰੂ ਵਿੱਚ ਇਹ ਨੰਬਰਾਂ ਦਾ ਕੋਈ ਮਤਲਬ ਨਹੀਂ ਹੁੰਦਾ।
ਫਿਰ attention ਹੁੰਦਾ ਹੈ।
ਇਹ ਵਾਕ ਲਓ: "The dog chased the cat because it was fast."
ਮਾਡਲ ਨੂੰ ਇਹ ਫੈਸਲਾ ਕਰਨਾ ਪਵੇਗਾ ਕਿ "it" ਕੁੱਤੇ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਜਾਂ ਬਿੱਲੀ ਨੂੰ। ਇਸ ਕੋਲ ਪਾਲਣ ਲਈ ਕੋਈ ਵਿਆਕਰਣ ਦੇ ਨਿਯਮ ਨਹੀਂ ਹਨ। ਇਹ ਸਿਰਫ਼ ਪਿਛਲੇ ਸ਼ਬਦਾਂ ਨੂੰ ਦੇਖਦਾ ਹੈ ਅਤੇ ਇੱਕ ਸਕੋਰ ਦਿੰਦਾ ਹੈ। ਇਹ ਪੁੱਛਦਾ ਹੈ: "ਮੈਨੂੰ ਇਸ ਸਮੇਂ ਤੁਹਾਡੇ ਵੱਲ ਕਿੰਨਾ ਧਿਆਨ ਦੇਣਾ ਚਾਹੀਦਾ ਹੈ?"
ਇਸ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ weight table ਬਣਦਾ ਹੈ।
[I, love, pizza] ਦੇ ਕ੍ਰਮ ਲਈ:
- "love" ਸ਼ਾਇਦ "I" ਨੂੰ 51% attention ਦੇਵੇ ਅਤੇ 49% ਆਪਣੇ ਆਪ ਨੂੰ।
- "pizza" ਪੂਰੀ ਤਸਵੀਰ ਦੇਖ ਸਕਦਾ ਹੈ। ਇਹ ਤਿੰਨਾਂ ਸ਼ਬਦਾਂ ਵਿੱਚ attention ਫੈਲਾ ਦਿੰਦਾ ਹੈ।
ਇਹ ਕੋਈ ਰੂਪਕ ਨਹੀਂ ਹੈ। "love" ਸ਼ਬਦ ਇੱਕ vector ਵਜੋਂ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ। Attention ਤੋਂ ਬਾਅਦ, ਇਹ ਇੱਕ ਨਵਾਂ vector ਬਣ ਜਾਂਦਾ ਹੈ। ਇਹ ਸਪੇਸ ਵਿੱਚ ਆਪਣੀ ਸਥਿਤੀ ਨੂੰ ਸਰੀਰਕ ਤੌਰ 'ਤੇ ਬਦਲ ਲੈਂਦਾ ਹੈ। ਇਹ "I" ਤੋਂ vector ਦਾ ਕੁਝ ਹਿੱਸਾ ਸੋਖ ਲੈਂਦਾ ਹੈ।
"I" ਦੇ ਸੰਦਰਭ ਵਿੱਚ "love" ਸ਼ਬਦ, ਇਕੱਲੇ ਖੜ੍ਹੇ "love" ਨਾਲੋਂ ਇੱਕ ਵੱਖਰਾ ਗਣਿਤਕ ਬਿੰਦੂ ਹੈ। Context ਸਿਰਫ਼ vector ਨੂੰ ਮਿਲਾਉਣ ਵਾਲਾ ਗਣਿਤ ਹੈ।
ਇਹ ਕਿਵੇਂ ਸਿੱਖਦਾ ਹੈ? ਬਹੁਤ ਛੋਟੇ ਬਦਲਾਅ ਰਾਹੀਂ।
ਜਦੋਂ ਮਾਡਲ ਗਲਤ ਅਨੁਮਾਨ ਲਗਾਉਂਦਾ ਹੈ, ਤਾਂ backpropagation weights ਨੂੰ ਥੋੜ੍ਹਾ ਜਿਹਾ ਹਿਲਾ ਦਿੰਦਾ ਹੈ। ਇਹ ਬਦਲਾਅ ਬਹੁਤ ਛੋਟੇ ਹੁੰਦੇ ਹਨ। ਇੱਕ weight 0.400 ਤੋਂ 0.397 ਤੱਕ ਜਾ ਸਕਦਾ ਹੈ।
0.009 ਦਾ ਇੱਕ ਛੋਟਾ ਜਿਹਾ ਬਦਲਾਅ ਅਨੁਮਾਨ ਨੂੰ ਗਲਤ ਤੋਂ ਸਹੀ ਵਿੱਚ ਬਦਲ ਸਕਦਾ ਹੈ। GPT-3 ਨੇ ਇਹ 300 ਬਿਲੀਅਨ ਵਾਰ ਕੀਤਾ।
ਇਹ zero-shot generalization ਪੈਦਾ ਕਰਦਾ ਹੈ। ਮਾਡਲ ਸਿੱਖਦਾ ਹੈ ਕਿ "You" ਅਤੇ "I" ਗਣਿਤਕ ਤੌਰ 'ਤੇ ਸਮਾਨ ਹਨ। ਇਹ "You" ਤੋਂ ਬਾਅਦ "love" ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਂਦਾ ਹੈ ਭਾਵੇਂ ਇਸਨੇ ਕਦੇ ਵੀ ਉਹ ਖਾਸ ਜੋੜਾ ਨਾ ਦੇਖਿਆ ਹੋਵੇ। ਇਹ geometric ਨੇੜਤਾ ਕਾਰਨ ਕਰਦਾ ਹੈ।
ਮਾਡਲ ਕਦੇ ਵੀ ਕੋਈ ਨਿਯਮ ਨਹੀਂ ਸਿੱਖਦਾ। ਇਹ ਇੱਕ ਦਿਸ਼ਾ ਸਿੱਖਦਾ ਹੈ।
ਹਰ weight ਇੱਕ ਛੋਟੀ ਕੰਪਾਸ ਦੀ ਸੂਈ ਵਾਂਗ ਹੈ। Training ਇਹਨਾਂ ਸੂਈਆਂ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦੀ ਹੈ ਤਾਂ ਜੋ geometry ਉਪਯੋਗੀ ਬਣ ਸਕੇ। ਉੱਥੇ ਕੋਈ ਵਿਆਕਰਣ ਦੀ ਕਿਤਾਬ ਨਹੀਂ ਹੈ। ਉੱਥੇ ਸਿਰਫ਼ ਗਣਿਤ ਹੈ।
Source: https://dev.to/pavan_kumar2004/gpt-has-no-idea-what-words-mean-thats-the-whole-point-16li
Optional learning community: https://t.me/GyaanSetuAi
