𝗧𝗵𝗿𝗲𝗲 𝗜𝗱𝗲𝗮𝘀 𝗧𝗵𝗮𝘁 𝗠𝗮𝗱𝗲 𝗠𝗼𝗱𝗲𝗿𝗻 𝗔𝗜 𝗣𝗼𝘀𝘀𝗶𝗯𝗹𝗲
ਆਧੁਨਿਕ AI ਜਾਦੂ ਵਾਂਗ ਲੱਗਦਾ ਹੈ। ਤੁਸੀਂ ਇੱਕ ਵਾਕ ਟਾਈਪ ਕਰਦੇ ਹੋ ਅਤੇ ਇੱਕ ਮਸ਼ੀਨ ਜਵਾਬ ਲਿਖਦੀ ਹੈ। ਇਹ ਬਹੁਤ ਅਜੀਬ ਲੱਗਦਾ ਹੈ। ਪਰ ਇਹ ਅਜਿਹਾ ਨਹੀਂ ਹੈ।
ਲਗਭਗ ਹਰ ਮਾਡਲ ਦੇ ਪਿੱਛੇ ਦੀ ਆਰਕੀਟੈਕਚਰ (architecture) ਸਧਾਰਨ ਇੰਜੀਨੀਅਰਿੰਗ ਸੁਧਾਰਾਂ 'ਤੇ ਟਿਕੀ ਹੋਈ ਹੈ। ਇਹ ਸੁਧਾਰ ਖਾਸ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਦੇ ਹਨ। ਇਸ ਵਿੱਚ ਕੋਈ ਜਾਦੂਈ ਚੀਜ਼ ਨਹੀਂ ਹੈ। ਇਸ ਵਿੱਚ ਸਿਰਫ਼ ਤਿੰਨ ਮੁੱਖ ਸੁਧਾਰ ਹਨ।
- Skip Connections
2014 ਦੇ ਆਸ-ਪਾਸ, ਇੰਜੀਨੀਅਰਾਂ ਨੇ ਨਿਊਰਲ ਨੈੱਟਵਰਕਸ (neural networks) ਨੂੰ ਹੋਰ ਡੂੰਘਾ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ। ਉਨ੍ਹਾਂ ਨੂੰ ਲੱਗਿਆ ਕਿ ਵਧੇਰੇ ਲੇਅਰਾਂ (layers) ਦਾ ਮਤਲਬ ਬਿਹਤਰ ਨਤੀਜੇ ਹਨ। ਉਹ ਗਲਤ ਸਨ। ਡੂੰਘੇ ਨੈੱਟਵਰਕ ਅਕਸਰ ਬਦਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਸਨ ਕਿਉਂਕਿ 'ਐਰਰ ਸਿਗਨਲ' (error signal) ਸ਼ੁਰੂਆਤੀ ਲੇਅਰਾਂ ਤੱਕ ਨਹੀਂ ਪਹੁੰਚ ਸਕਦਾ ਸੀ। ਸਿਗਨਲ ਜਾਂ ਤਾਂ ਖਤਮ ਹੋ ਜਾਂਦਾ ਸੀ ਜਾਂ ਬਹੁਤ ਜ਼ਿਆਦਾ ਵਧ ਜਾਂਦਾ ਸੀ।
Skip connections ਨੇ ਇਸ ਨੂੰ ਠੀਕ ਕੀਤਾ। ਹਰ ਲੇਅਰ ਨੂੰ ਇਨਪੁਟ ਬਦਲਣ ਲਈ ਮਜਬੂਰ ਕਰਨ ਦੀ ਬਜਾਏ, ਤੁਸੀਂ ਇਨਪੁਟ ਨੂੰ ਅੱਗੇ ਛੱਡ ਦਿੰਦੇ ਹੋ। ਤੁਸੀਂ ਅਸਲ ਇਨਪੁਟ ਨੂੰ ਆਊਟਪੁਟ ਵਿੱਚ ਵਾਪਸ ਜੋੜ ਦਿੰਦੇ ਹੋ।
ਇਹ ਦੋ ਕੰਮ ਕਰਦਾ ਹੈ:
- ਇਹ "ਕੁਝ ਨਾ ਕਰਨ" ਨੂੰ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ। ਜੇਕਰ ਕੋਈ ਲੇਅਰ ਕੋਈ ਮੁੱਲ ਨਹੀਂ ਜੋੜਦੀ, ਤਾਂ ਇਨਪੁਟ ਬਿਨਾਂ ਕਿਸੇ ਬਦਲਾਅ ਦੇ ਅੱਗੇ ਵਧਦਾ ਰਹਿੰਦਾ ਹੈ।
- ਇਹ ਐਰਰ ਸਿਗਨਲ ਲਈ ਇੱਕ ਸਿੱਧਾ ਰਸਤਾ ਬਣਾਉਂਦਾ ਹੈ। ਸਿਗਨਲ ਨੂੰ ਸ਼ੁਰੂਆਤੀ ਲੇਅਰਾਂ ਤੱਕ ਪਹੁੰਚਣ ਲਈ ਇੱਕ 'ਐਕਸਪ੍ਰੈਸ ਲੇਨ' ਮਿਲ ਜਾਂਦੀ ਹੈ।
- Normalization
ਜਿਵੇਂ-ਜਿਵੇਂ ਡਾਟਾ ਇੱਕ ਨੈੱਟਵਰਕ ਰਾਹੀਂ ਲੰਘਦਾ ਹੈ, ਨੰਬਰਾਂ ਦਾ ਪੈਮਾਨਾ (scale) ਬਦਲਦਾ ਰਹਿੰਦਾ ਹੈ। ਇੱਕ ਲੇਅਰ 0.01 ਪੈਦਾ ਕਰ ਸਕਦੀ ਹੈ ਜਦੋਂ ਕਿ ਅਗਲੀ 5000 ਪੈਦਾ ਕਰ ਸਕਦੀ ਹੈ। ਜਦੋਂ ਨੰਬਰ ਇਨ੍ਹਾਂ ਅਤਿਅੰਤ ਪੱਧਰਾਂ 'ਤੇ ਪਹੁੰਚਦੇ ਹਨ, ਤਾਂ ਸਿੱਖਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਰੁਕ ਜਾਂਦੀ ਹੈ।
Normalization ਇਸ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਦਾ ਹੈ। ਇਹ ਨੰਬਰਾਂ ਨੂੰ ਜ਼ੀਰੋ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਦੁਬਾਰਾ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਇੱਕ ਨਿਰੰਤਰ ਪੈਮਾਨੇ 'ਤੇ ਰੱਖਦਾ ਹੈ। ਇਹ ਤੁਹਾਨੂੰ ਉੱਚੇ ਲਰਨਿੰਗ ਰੇਟ (learning rates) ਦੀ ਵਰਤੋਂ ਕਰਨ ਅਤੇ ਬਹੁਤ ਤੇਜ਼ੀ ਨਾਲ ਸਿਖਲਾਈ ਦੇਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਇਹ ਗਣਿਤ ਨੂੰ ਸਹੀ ਰੱਖਦਾ ਹੈ।
- Attention
ਪੁਰਾਣੇ ਮਾਡਲ ਟੈਕਸਟ ਨੂੰ ਇੱਕ ਸਮੇਂ ਵਿੱਚ ਇੱਕ ਸ਼ਬਦ ਪੜ੍ਹਦੇ ਸਨ। ਇਹ ਸੁਸਤ ਅਤੇ ਭੁੱਲਣ ਵਾਲਾ ਤਰੀਕਾ ਸੀ। ਪਹਿਲੇ ਸ਼ਬਦ ਨੂੰ ਆਖਰੀ ਸ਼ਬਦ ਨਾਲ ਜੋੜਨ ਲਈ, ਜਾਣਕਾਰੀ ਨੂੰ ਵਿਚਕਾਰਲੇ ਹਰ ਸ਼ਬਦ ਤੋਂ ਲੰਘਣਾ ਪੈਂਦਾ ਸੀ। ਅੰਤ ਤੱਕ, ਸ਼ੁਰੂਆਤ ਦੀ ਜਾਣਕਾਰੀ ਗੁਆਚ ਜਾਂਦੀ ਸੀ।
Attention ਇਸ ਨੂੰ ਬਦਲ ਦਿੰਦਾ ਹੈ। ਕ੍ਰਮਵਾਰ ਪੜ੍ਹਨ ਦੀ ਬਜਾਏ, ਹਰ ਸ਼ਬਦ ਵਾਕ ਦੇ ਹਰ ਦੂਜੇ ਸ਼ਬਦ ਨੂੰ ਇੱਕੋ ਸਮੇਂ ਦੇਖਦਾ ਹੈ। ਸ਼ਬਦ "it" ਸਿੱਧਾ ਆਪਣੇ ਨਾਉਂ (noun) ਵੱਲ ਦੇਖ ਸਕਦਾ ਹੈ, ਚਾਹੇ ਉਹ ਕਿੰਨਾ ਵੀ ਦੂਰ ਕਿਉਂ ਨਾ ਹੋਵੇ।
ਕਿਉਂਕਿ ਕੁਝ ਵੀ ਕਿਸੇ ਖਾਸ ਕ੍ਰਮ 'ਤੇ ਨਿਰਭਰ ਨਹੀਂ ਕਰਦਾ, ਤੁਸੀਂ ਸਭ ਕੁਝ ਇੱਕੋ ਵਾਰ ਪ੍ਰੋਸੈਸ ਕਰ ਸਕਦੇ ਹੋ। ਇਹ ਸਿਖਲਾਈ (training) ਨੂੰ ਤੇਜ਼ ਅਤੇ ਕੁਸ਼ਲ ਬਣਾਉਂਦਾ ਹੈ।
Transformer ਇਹਨਾਂ ਤਿੰਨਾਂ ਵਿਚਾਰਾਂ ਦੇ ਸੁਮੇਲ ਦਾ ਨਤੀਜਾ ਹੈ। ਇਹ normalization ਦੇ ਵਿਚਕਾਰ skip connections ਵਿੱਚ ਲਪੇਟੇ ਹੋਏ attention blocks ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।
AI ਕੋਈ ਜਾਦੂ-ਟੂਣਾ ਨਹੀਂ ਹੈ। ਇਹ ਲੋਕਾਂ ਦੁਆਰਾ ਕੁਝ ਟੁੱਟਿਆ ਹੋਇਆ ਦੇਖਣ ਅਤੇ ਇਸ ਨੂੰ ਸਧਾਰਨ ਗਣਿਤ ਨਾਲ ਠੀਕ ਕਰਨ ਦਾ ਨਤੀਜਾ ਹੈ।
ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਭਾਈਚਾਰਾ: https://t.me/GyaanSetuAi