तीन चरणों का प्रशिक्षण एक चैटबॉट बनाता है
एक Transformer बनाना ही काफी नहीं है। आप इसमें पूरा इंटरनेट डाल सकते हैं और कंप्यूट पर लाखों खर्च कर सकते हैं, फिर भी अंत में आपके पास एक ऐसी मशीन होगी जो एक साधारण सवाल का जवाब भी नहीं दे पाएगी।
एक रॉ (raw) मॉडल केवल टेक्स्ट की नकल करता है। यह पैटर्न के आधार पर अगले शब्द का अनुमान लगाता है। यदि आप उससे पूछते हैं "मैं अपना राउटर रीसेट कैसे करूँ?", तो वह "मैं अपना पासवर्ड कैसे बदलूँ?" जैसे और अधिक सवालों के साथ जवाब दे सकता है। उसे यह नहीं पता कि आपको मदद चाहिए। उसे बस इतना पता है कि इंटरनेट किसी वाक्य को कैसे आगे बढ़ाता है।
इस प्रेडिक्टर (predictor) को चैटबॉट में बदलने के लिए, आपको प्रशिक्षण के तीन चरणों की आवश्यकता होती है।
Pretraining (इंजन) आप मॉडल को खरबों शब्द दिखाते हैं। आप आखिरी शब्द को छिपा देते हैं और उसे अनुमान लगाने के लिए कहते हैं। इससे ज्ञान का निर्माण होता है। यह तथ्यों, व्याकरण और तर्क को सीखता है। यह इसलिए काम करता है क्योंकि डेटा स्वयं को लेबल करता है। स्केल (Scale) इसे अनुमानित बनाता है। अधिक डेटा और अधिक कंप्यूट बेहतर परिणामों की ओर ले जाते हैं।
Instruction Tuning (स्क्रिप्ट) बेस मॉडल सब कुछ जानता है लेकिन उसका कोई लक्ष्य नहीं होता। इस चरण में, आप उसे एक प्रॉम्प्ट (prompt) के साथ एक अच्छे मानवीय उत्तर के कुछ हज़ार उदाहरण दिखाते हैं। यह नया ज्ञान नहीं जोड़ता है। यह मॉडल को एक नया व्यवहार सिखाता है। आप एक अभिनेता को स्क्रिप्ट सौंप रहे हैं। यह केवल टेक्स्ट पूरा करने के बजाय एक सहायक (assistant) की तरह काम करना सीखता है।
Preference Tuning (शिष्टाचार) स्क्रिप्ट की सीमाएं होती हैं। आप हर स्थिति के लिए नियम नहीं लिख सकते। इस चरण में, आप मॉडल को दो अलग-अलग उत्तर दिखाते हैं और एक इंसान को बेहतर उत्तर चुनने देते हैं। मॉडल मानवीय पसंद के आधार पर उच्च स्कोर प्राप्त करना सीखता है। यह मॉडल को उसका लहजा (tone), उसकी विनम्रता और उसकी सुरक्षा सीमाएं प्रदान करता है।
सारांश सरल है:
- Pretraining ज्ञान का निर्माण करती है।
- Instruction tuning भीड़ में से सहायक को चुनती है।
- Preference tuning निर्णय लेने की क्षमता और शिष्टाचार जोड़ती है।
चैट विंडो में आप जो व्यक्तित्व देखते हैं, वह केवल एक रॉ वर्ड प्रेडिक्टर के ऊपर की एक पतली परत है। इसे बनाने के लिए हमें बुद्धिमत्ता के सिद्धांत की आवश्यकता नहीं थी। हमें केवल एक सरल लक्ष्य, स्केल और कोचिंग के दो चरणों की आवश्यकता थी।
Optional learning community: https://t.me/GyaanSetuAi
