تین مرحلوں کی تربیت ایک چیٹ بوٹ بناتی ہے
صرف ایک Transformer بنانا کافی نہیں ہے۔ آپ اس میں پورا انٹرنیٹ ڈال سکتے ہیں اور کمپیوٹنگ پر لاکھوں خرچ کر سکتے ہیں، لیکن پھر بھی آپ کے پاس ایک ایسی مشین ہوگی جو ایک سادہ سا سوال بھی نہیں بتا سکے گی۔
ایک خام (raw) ماڈل محض متن کی نقل کرنے والا ہوتا ہے۔ یہ پیٹرنز کی بنیاد پر اگلے لفظ کی پیش گوئی کرتا ہے۔ اگر آپ اس سے پوچھیں "میں اپنا راؤٹر کیسے ری سیٹ کروں؟"، تو ہو سکتا ہے کہ وہ مزید سوالات کے ساتھ جواب دے جیسے "میں اپنا پاس ورڈ کیسے تبدیل کروں؟"۔ اسے یہ معلوم نہیں ہوتا کہ آپ کو مدد چاہیے، اسے صرف یہ معلوم ہوتا ہے کہ انٹرنیٹ پر ایک جملہ کیسے مکمل کیا جاتا ہے۔
اس پیش گوئی کرنے والے ماڈل کو چیٹ بوٹ میں تبدیل کرنے کے لیے، آپ کو تربیت کے تین مرحلوں کی ضرورت ہوتی ہے۔
Pretraining (انجن) آپ ماڈل کو کھربوں الفاظ دکھاتے ہیں۔ آپ آخری لفظ چھپا دیتے ہیں اور اسے اندازہ لگانے پر مجبور کرتے ہیں۔ اس سے علم (knowledge) کی بنیاد پڑتی ہے۔ یہ حقائق، گرامر اور منطق سیکھتا ہے۔ یہ اس لیے کام کرتا ہے کیونکہ ڈیٹا خود کو لیبل کرتا ہے۔ اس کا پیمانہ (scale) اسے قابلِ پیش گوئی بناتا ہے۔ زیادہ ڈیٹا اور زیادہ کمپیوٹنگ بہتر نتائج کی طرف لے جاتی ہے۔
Instruction Tuning (اسکرپٹ) بنیادی ماڈل سب کچھ جانتا ہے لیکن اس کا کوئی مقصد نہیں ہوتا۔ اس مرحلے میں، آپ اسے ایک پرامپٹ (prompt) اور اس کے ساتھ ایک اچھے انسانی جواب کی چند ہزار مثالیں دکھاتے ہیں۔ یہ نیا علم شامل نہیں کرتا، بلکہ ماڈل کو ایک نیا طرزِ عمل سکھاتا ہے۔ آپ ایک اداکار کو اسکرپٹ دے رہے ہوتے ہیں۔ یہ محض متن مکمل کرنے کے بجائے ایک مددگار اسسٹنٹ کی طرح کام کرنا سیکھتا ہے۔
Preference Tuning (اخلاق و آداب) اسکرپٹس محدود ہوتے ہیں۔ آپ ہر صورتحال کے لیے اصول نہیں لکھ سکتے۔ اس مرحلے میں، آپ ماڈل کو دو مختلف جوابات دکھاتے ہیں اور ایک انسان کو بہتر جواب منتخب کرنے دیتے ہیں۔ ماڈل انسانی پسند کے مطابق زیادہ سے زیادہ اسکور حاصل کرنا سیکھتا ہے۔ یہی چیز ماڈل کو اس کا لہجہ، شائستگی اور حفاظتی حدود فراہم کرتی ہے۔
خلاصہ سادہ ہے:
- Pretraining علم کی بنیاد رکھتی ہے۔
- Instruction tuning ہجوم میں سے ایک اسسٹنٹ کا انتخاب کرتی ہے۔
- Preference tuning فیصلے کرنے کی صلاحیت اور اخلاق شامل کرتی ہے۔
چیٹ ونڈو میں آپ جو شخصیت دیکھتے ہیں وہ محض ایک خام لفظی پیش گوئی کرنے والے ماڈل کے اوپر ایک باریک تہہ ہے۔ اسے بنانے کے لیے ہمیں ذہانت کے کسی نظریے کی ضرورت نہیں تھی۔ ہمیں صرف ایک سادہ مقصد، پیمانہ (scale) اور کوچنگ کے دو مرحلوں کی ضرورت تھی۔
اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi
