Three Rounds of Training Make a Chatbot

Translated for your language. Read the original.

AI-assisted draft.

𝗧𝗵𝗿𝗲𝗲 𝗥𝗼𝘂𝗻𝗱𝘀 𝗼𝗳 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝗮𝗸𝗲 𝗮 𝗖𝗵𝗮𝘁𝗯𝗼𝘁

ਇੱਕ Transformer ਬਣਾਉਣਾ ਹੀ ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ। ਤੁਸੀਂ ਇਸ ਵਿੱਚ ਪੂਰਾ ਇੰਟਰਨੈੱਟ ਪਾ ਸਕਦੇ ਹੋ ਅਤੇ ਕੰਪਿਊਟਿੰਗ 'ਤੇ ਲੱਖਾਂ-ਕਰੋੜਾਂ ਖਰਚ ਸਕਦੇ ਹੋ। ਫਿਰ ਵੀ, ਅੰਤ ਵਿੱਚ ਤੁਹਾਡੇ ਕੋਲ ਇੱਕ ਅਜਿਹੀ ਮਸ਼ੀਨ ਹੋਵੇਗੀ ਜੋ ਇੱਕ ਸਧਾਰਨ ਸਵਾਲ ਦਾ ਜਵਾਬ ਵੀ ਨਹੀਂ ਦੇ ਸਕਦੀ।

ਇੱਕ ਰੋ (raw) ਮਾਡਲ ਸਿਰਫ਼ ਟੈਕਸਟ ਦੀ ਨਕਲ ਕਰਦਾ ਹੈ। ਇਹ ਪੈਟਰਨਾਂ ਦੇ ਅਧਾਰ 'ਤੇ ਅਗਲੇ ਸ਼ਬਦ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਇਸਨੂੰ ਪੁੱਛਦੇ ਹੋ "ਮੈਂ ਆਪਣਾ ਰਾਊਟਰ ਰੀਸੈੱਟ ਕਿਵੇਂ ਕਰਾਂ?", ਤਾਂ ਇਹ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਹੋਰ ਸਵਾਲਾਂ ਨਾਲ ਜਵਾਬ ਦੇਵੇ ਜਿਵੇਂ ਕਿ "ਮੈਂ ਆਪਣਾ ਪਾਸਵਰਡ ਕਿਵੇਂ ਬਦਲਾਂ?". ਇਸਨੂੰ ਇਹ ਨਹੀਂ ਪਤਾ ਕਿ ਤੁਹਾਨੂੰ ਮਦਦ ਚਾਹੀਦੀ ਹੈ। ਇਸਨੂੰ ਸਿਰਫ਼ ਇਹ ਪਤਾ ਹੈ ਕਿ ਇੰਟਰਨੈੱਟ ਕਿਸ ਤਰ੍ਹਾਂ ਇੱਕ ਵਾਕ ਨੂੰ ਅੱਗੇ ਵਧਾਉਂਦਾ ਹੈ।

ਇਸ ਪ੍ਰੈਡਿਕਟਰ (predictor) ਨੂੰ ਚੈਟਬੋਟ ਵਿੱਚ ਬਦਲਣ ਲਈ, ਤੁਹਾਨੂੰ ਟ੍ਰੇਨਿੰਗ ਦੇ ਤਿੰਨ ਪੜਾਵਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

Pretraining (ਇੰਜਣ) ਤੁਸੀਂ ਮਾਡਲ ਨੂੰ ਟ੍ਰਿਲੀਅਨਾਂ ਸ਼ਬਦ ਦਿਖਾਉਂਦੇ ਹੋ। ਤੁਸੀਂ ਆਖਰੀ ਸ਼ਬਦ ਨੂੰ ਲੁਕਾ ਦਿੰਦੇ ਹੋ ਅਤੇ ਇਸਨੂੰ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਕਹਿੰਦੇ ਹੋ। ਇਹ ਗਿਆਨ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਤੱਥ, ਵਿਆਕਰਣ ਅਤੇ ਤਰਕ ਸਿੱਖਦਾ ਹੈ। ਇਹ ਇਸ ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ ਕਿਉਂਕਿ ਡਾਟਾ ਆਪਣੇ ਆਪ ਨੂੰ ਲੇਬਲ ਕਰਦਾ ਹੈ। ਸਕੇਲ (Scale) ਇਸਨੂੰ ਭਵਿੱਖਬਾਣੀਯੋਗ ਬਣਾਉਂਦਾ ਹੈ। ਵੱਧ ਡਾਟਾ ਅਤੇ ਵੱਧ ਕੰਪਿਊਟਿੰਗ ਬਿਹਤਰ ਨਤੀਜੇ ਦਿੰਦੀ ਹੈ।
Instruction Tuning (ਸਕ੍ਰਿਪਟ) ਬੇਸ ਮਾਡਲ ਸਭ ਕੁਝ ਜਾਣਦਾ ਹੈ ਪਰ ਇਸਦਾ ਕੋਈ ਟੀਚਾ ਨਹੀਂ ਹੁੰਦਾ। ਇਸ ਪੜਾਅ ਵਿੱਚ, ਤੁਸੀਂ ਇਸਨੂੰ ਇੱਕ ਪ੍ਰੋਂਪਟ (prompt) ਅਤੇ ਇੱਕ ਚੰਗੇ ਮਨੁੱਖੀ ਜਵਾਬ ਦੇ ਕੁਝ ਹਜ਼ਾਰ ਉਦਾਹਰਣਾਂ ਦਿਖਾਉਂਦੇ ਹੋ। ਇਹ ਨਵਾਂ ਗਿਆਨ ਨਹੀਂ ਜੋੜਦਾ। ਇਹ ਮਾਡਲ ਨੂੰ ਇੱਕ ਨਵਾਂ ਵਿਵਹਾਰ ਸਿਖਾਉਂਦਾ ਹੈ। ਤੁਸੀਂ ਇੱਕ ਅਦਾਕਾਰ ਨੂੰ ਸਕ੍ਰਿਪਟ ਫੜਾ ਰਹੇ ਹੋ। ਇਹ ਸਿਰਫ਼ ਟੈਕਸਟ ਨੂੰ ਪੂਰਾ ਕਰਨ ਦੀ ਬਜਾਏ ਇੱਕ ਮਦਦਗਾਰ ਸਹਾਇਕ ਵਾਂਗ ਕੰਮ ਕਰਨਾ ਸਿੱਖਦਾ ਹੈ।
Preference Tuning (ਸ਼ਿਸ਼ਟਾਚਾਰ) ਸਕ੍ਰਿਪਟਾਂ ਸੀਮਤ ਹੁੰਦੀਆਂ ਹਨ। ਤੁਸੀਂ ਹਰ ਸਥਿਤੀ ਲਈ ਨਿਯਮ ਨਹੀਂ ਲਿਖ ਸਕਦੇ। ਇਸ ਪੜਾਅ ਵਿੱਚ, ਤੁਸੀਂ ਮਾਡਲ ਨੂੰ ਦੋ ਵੱਖ-ਵੱਖ ਜਵਾਬ ਦਿਖਾਉਂਦੇ ਹੋ ਅਤੇ ਇੱਕ ਮਨੁੱਖ ਨੂੰ ਬਿਹਤਰ ਜਵਾਬ ਚੁਣਨ ਦਿੰਦੇ ਹੋ। ਮਾਡਲ ਮਨੁੱਖੀ ਪਸੰਦ ਦੇ ਅਧਾਰ 'ਤੇ ਉੱਚ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰਨਾ ਸਿੱਖਦਾ ਹੈ। ਇਹ ਮਾਡਲ ਨੂੰ ਉਸਦਾ ਲਹਿਜ਼ਾ, ਉਸਦੀ ਨਿਮਰਤਾ ਅਤੇ ਉਸਦੀ ਸੁਰੱਖਿਆ ਸੀਮਾਵਾਂ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

ਸੰਖੇਪ ਵਿੱਚ ਇਹ ਸਧਾਰਨ ਹੈ:

Pretraining ਗਿਆਨ ਬਣਾਉਂਦੀ ਹੈ।
Instruction tuning ਭੀੜ ਵਿੱਚੋਂ ਇੱਕ ਸਹਾਇਕ ਦੀ ਚੋਣ ਕਰਦੀ ਹੈ।
Preference tuning ਫੈਸਲਾ ਲੈਣ ਦੀ ਸਮਰੱਥਾ ਅਤੇ ਸ਼ਿਸ਼ਟਾਚਾਰ ਜੋੜਦੀ ਹੈ।

ਚੈਟ ਵਿੰਡੋ ਵਿੱਚ ਜੋ ਸ਼ਖਸੀਅਤ ਤੁਸੀਂ ਦੇਖਦੇ ਹੋ, ਉਹ ਸਿਰਫ਼ ਇੱਕ ਰੋ (raw) ਸ਼ਬਦ ਪ੍ਰੈਡਿਕਟਰ ਦੇ ਉੱਪਰ ਇੱਕ ਪਤਲੀ ਪਰਤ ਹੈ। ਇਸਨੂੰ ਬਣਾਉਣ ਲਈ ਸਾਨੂੰ ਬੁੱਧੀ ਦੇ ਕਿਸੇ ਸਿਧਾਂਤ ਦੀ ਲੋੜ ਨਹੀਂ ਸੀ। ਸਾਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਸਧਾਰਨ ਟੀਚਾ, ਸਕੇਲ ਅਤੇ ਕੋਚਿੰਗ ਦੇ ਦੋ ਪੜਾਵਾਂ ਦੀ ਲੋੜ ਸੀ।

Source: https://dev.to/karthi_raman_02ec8161bda0/three-rounds-of-training-turn-a-word-predictor-into-a-chatbot-none-of-them-are-magic-395i

Optional learning community: https://t.me/GyaanSetuAi

Three Rounds of Training Make a Chatbot

Continue reading

ChatGPT ਤੋਂ AI Agents ਤੱਕ: ਇੱਕ ਇੰਜੀਨੀਅਰ ਵਜੋਂ ਦੋ ਸਾਲ

Managed AI Agents Are The Real Opportunity

ਵੈੱਬਸਾਈਟ ਚੈਟਬੋਟ ਇੱਕ ਅਸਥਾਈ ਹੱਲ ਸੀ, ਅਸਲ ਹੱਲ ਨਹੀਂ

The Agentic AI Maturity Model