𝗧𝗵𝗿𝗲𝗲 𝗥𝗼𝘂𝗻𝗱𝘀 𝗼𝗳 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝗮𝗸𝗲 𝗮 𝗖𝗵𝗮𝘁𝗯𝗼𝘁
ਇੱਕ Transformer ਬਣਾਉਣਾ ਹੀ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ। ਤੁਸੀਂ ਇਸ ਵਿੱਚ ਪੂਰਾ ਇੰਟਰਨੈੱਟ ਪਾ ਸਕਦੇ ਹੋ ਅਤੇ ਕੰਪਿਊਟਿੰਗ 'ਤੇ ਲੱਖਾਂ-ਕਰੋੜਾਂ ਖਰਚ ਸਕਦੇ ਹੋ। ਫਿਰ ਵੀ, ਅੰਤ ਵਿੱਚ ਤੁਹਾਡੇ ਕੋਲ ਇੱਕ ਅਜਿਹੀ ਮਸ਼ੀਨ ਹੋਵੇਗੀ ਜੋ ਇੱਕ ਸਧਾਰਨ ਸਵਾਲ ਦਾ ਜਵਾਬ ਵੀ ਨਹੀਂ ਦੇ ਸਕਦੀ।
ਇੱਕ ਰੋ (raw) ਮਾਡਲ ਸਿਰਫ਼ ਟੈਕਸਟ ਦੀ ਨਕਲ ਕਰਦਾ ਹੈ। ਇਹ ਪੈਟਰਨਾਂ ਦੇ ਅਧਾਰ 'ਤੇ ਅਗਲੇ ਸ਼ਬਦ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਇਸਨੂੰ ਪੁੱਛਦੇ ਹੋ "ਮੈਂ ਆਪਣਾ ਰਾਊਟਰ ਰੀਸੈੱਟ ਕਿਵੇਂ ਕਰਾਂ?", ਤਾਂ ਇਹ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਹੋਰ ਸਵਾਲਾਂ ਨਾਲ ਜਵਾਬ ਦੇਵੇ ਜਿਵੇਂ ਕਿ "ਮੈਂ ਆਪਣਾ ਪਾਸਵਰਡ ਕਿਵੇਂ ਬਦਲਾਂ?". ਇਸਨੂੰ ਇਹ ਨਹੀਂ ਪਤਾ ਕਿ ਤੁਹਾਨੂੰ ਮਦਦ ਚਾਹੀਦੀ ਹੈ। ਇਸਨੂੰ ਸਿਰਫ਼ ਇਹ ਪਤਾ ਹੈ ਕਿ ਇੰਟਰਨੈੱਟ ਕਿਸ ਤਰ੍ਹਾਂ ਇੱਕ ਵਾਕ ਨੂੰ ਅੱਗੇ ਵਧਾਉਂਦਾ ਹੈ।
ਇਸ ਪ੍ਰੈਡਿਕਟਰ (predictor) ਨੂੰ ਚੈਟਬੋਟ ਵਿੱਚ ਬਦਲਣ ਲਈ, ਤੁਹਾਨੂੰ ਟ੍ਰੇਨਿੰਗ ਦੇ ਤਿੰਨ ਪੜਾਵਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
Pretraining (ਇੰਜਣ) ਤੁਸੀਂ ਮਾਡਲ ਨੂੰ ਟ੍ਰਿਲੀਅਨਾਂ ਸ਼ਬਦ ਦਿਖਾਉਂਦੇ ਹੋ। ਤੁਸੀਂ ਆਖਰੀ ਸ਼ਬਦ ਨੂੰ ਲੁਕਾ ਦਿੰਦੇ ਹੋ ਅਤੇ ਇਸਨੂੰ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਕਹਿੰਦੇ ਹੋ। ਇਹ ਗਿਆਨ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਤੱਥ, ਵਿਆਕਰਣ ਅਤੇ ਤਰਕ ਸਿੱਖਦਾ ਹੈ। ਇਹ ਇਸ ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ ਕਿਉਂਕਿ ਡਾਟਾ ਆਪਣੇ ਆਪ ਨੂੰ ਲੇਬਲ ਕਰਦਾ ਹੈ। ਸਕੇਲ (Scale) ਇਸਨੂੰ ਭਵਿੱਖਬਾਣੀਯੋਗ ਬਣਾਉਂਦਾ ਹੈ। ਵੱਧ ਡਾਟਾ ਅਤੇ ਵੱਧ ਕੰਪਿਊਟਿੰਗ ਬਿਹਤਰ ਨਤੀਜੇ ਦਿੰਦੀ ਹੈ।
Instruction Tuning (ਸਕ੍ਰਿਪਟ) ਬੇਸ ਮਾਡਲ ਸਭ ਕੁਝ ਜਾਣਦਾ ਹੈ ਪਰ ਇਸਦਾ ਕੋਈ ਟੀਚਾ ਨਹੀਂ ਹੁੰਦਾ। ਇਸ ਪੜਾਅ ਵਿੱਚ, ਤੁਸੀਂ ਇਸਨੂੰ ਇੱਕ ਪ੍ਰੋਂਪਟ (prompt) ਅਤੇ ਇੱਕ ਚੰਗੇ ਮਨੁੱਖੀ ਜਵਾਬ ਦੇ ਕੁਝ ਹਜ਼ਾਰ ਉਦਾਹਰਣਾਂ ਦਿਖਾਉਂਦੇ ਹੋ। ਇਹ ਨਵਾਂ ਗਿਆਨ ਨਹੀਂ ਜੋੜਦਾ। ਇਹ ਮਾਡਲ ਨੂੰ ਇੱਕ ਨਵਾਂ ਵਿਵਹਾਰ ਸਿਖਾਉਂਦਾ ਹੈ। ਤੁਸੀਂ ਇੱਕ ਅਦਾਕਾਰ ਨੂੰ ਸਕ੍ਰਿਪਟ ਫੜਾ ਰਹੇ ਹੋ। ਇਹ ਸਿਰਫ਼ ਟੈਕਸਟ ਨੂੰ ਪੂਰਾ ਕਰਨ ਦੀ ਬਜਾਏ ਇੱਕ ਮਦਦਗਾਰ ਸਹਾਇਕ ਵਾਂਗ ਕੰਮ ਕਰਨਾ ਸਿੱਖਦਾ ਹੈ।
Preference Tuning (ਸ਼ਿਸ਼ਟਾਚਾਰ) ਸਕ੍ਰਿਪਟਾਂ ਸੀਮਤ ਹੁੰਦੀਆਂ ਹਨ। ਤੁਸੀਂ ਹਰ ਸਥਿਤੀ ਲਈ ਨਿਯਮ ਨਹੀਂ ਲਿਖ ਸਕਦੇ। ਇਸ ਪੜਾਅ ਵਿੱਚ, ਤੁਸੀਂ ਮਾਡਲ ਨੂੰ ਦੋ ਵੱਖ-ਵੱਖ ਜਵਾਬ ਦਿਖਾਉਂਦੇ ਹੋ ਅਤੇ ਇੱਕ ਮਨੁੱਖ ਨੂੰ ਬਿਹਤਰ ਜਵਾਬ ਚੁਣਨ ਦਿੰਦੇ ਹੋ। ਮਾਡਲ ਮਨੁੱਖੀ ਪਸੰਦ ਦੇ ਅਧਾਰ 'ਤੇ ਉੱਚ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰਨਾ ਸਿੱਖਦਾ ਹੈ। ਇਹ ਮਾਡਲ ਨੂੰ ਉਸਦਾ ਲਹਿਜ਼ਾ, ਉਸਦੀ ਨਿਮਰਤਾ ਅਤੇ ਉਸਦੀ ਸੁਰੱਖਿਆ ਸੀਮਾਵਾਂ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਸੰਖੇਪ ਵਿੱਚ ਇਹ ਸਧਾਰਨ ਹੈ:
- Pretraining ਗਿਆਨ ਬਣਾਉਂਦੀ ਹੈ।
- Instruction tuning ਭੀੜ ਵਿੱਚੋਂ ਇੱਕ ਸਹਾਇਕ ਦੀ ਚੋਣ ਕਰਦੀ ਹੈ।
- Preference tuning ਫੈਸਲਾ ਲੈਣ ਦੀ ਸਮਰੱਥਾ ਅਤੇ ਸ਼ਿਸ਼ਟਾਚਾਰ ਜੋੜਦੀ ਹੈ।
ਚੈਟ ਵਿੰਡੋ ਵਿੱਚ ਜੋ ਸ਼ਖਸੀਅਤ ਤੁਸੀਂ ਦੇਖਦੇ ਹੋ, ਉਹ ਸਿਰਫ਼ ਇੱਕ ਰੋ (raw) ਸ਼ਬਦ ਪ੍ਰੈਡਿਕਟਰ ਦੇ ਉੱਪਰ ਇੱਕ ਪਤਲੀ ਪਰਤ ਹੈ। ਇਸਨੂੰ ਬਣਾਉਣ ਲਈ ਸਾਨੂੰ ਬੁੱਧੀ ਦੇ ਕਿਸੇ ਸਿਧਾਂਤ ਦੀ ਲੋੜ ਨਹੀਂ ਸੀ। ਸਾਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਸਧਾਰਨ ਟੀਚਾ, ਸਕੇਲ ਅਤੇ ਕੋਚਿੰਗ ਦੇ ਦੋ ਪੜਾਵਾਂ ਦੀ ਲੋੜ ਸੀ।
Optional learning community: https://t.me/GyaanSetuAi
