𝗧𝗵𝗿𝗲𝗲 𝗥𝗼𝘂𝗻𝗱𝘀 𝗼𝗳 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝗮𝗸𝗲 𝗮 𝗖𝗵𝗮𝘁𝗯𝗼𝘁 चॅटबॉट तयार करण्यासाठी प्रशिक्षणाचे तीन टप्पे
केवळ एक Transformer तयार करणे पुरेसे नाही. तुम्ही त्यात संपूर्ण इंटरनेटचा डेटा भरू शकता आणि संगणकीय प्रक्रियेवर (compute) लाखो डॉलर्स खर्च करू शकता, तरीही शेवटी तुमच्याकडे असे यंत्र असेल जे साध्या प्रश्नाचे उत्तरही देऊ शकणार नाही.
एक मूळ (raw) मॉडेल हे केवळ मजकुराची नक्कल करणारे असते. ते पॅटर्नच्या आधारे पुढचा शब्द ओळखते. जर तुम्ही त्याला "मी माझा राउटर रिसेट कसा करू?" असे विचारले, तर ते "मी माझा पासवर्ड कसा बदलू?" यांसारखे अधिक प्रश्न विचारून उत्तर देऊ शकते. तुम्हाला मदत हवी आहे हे त्याला समजत नाही. इंटरनेटवर एखादे वाक्य कसे पुढे चालू शकते, हे त्याला फक्त माहित असते.
या प्रेडिक्टरचे (predictor) चॅटबॉटमध्ये रूपांतर करण्यासाठी, तुम्हाला प्रशिक्षणाचे तीन टप्पे आवश्यक आहेत.
Pretraining (इंजिन) तुम्ही मॉडेलला ट्रिलियन्स शब्द दाखवता. तुम्ही शेवटचा शब्द लपवता आणि मॉडेलला तो ओळखण्यास सांगता. यामुळे ज्ञान निर्माण होते. ते तथ्ये, व्याकरण आणि तर्कशास्त्र शिकते. हे काम करते कारण डेटा स्वतःहून लेबलिंग करतो. स्केलमुळे (Scale) हे अधिक सुसंगत होते. अधिक डेटा आणि अधिक कॉम्प्युटमुळे अधिक चांगले परिणाम मिळतात.
Instruction Tuning (स्क्रिप्ट) बेस मॉडेलला सर्व काही माहित असते पण त्याचे कोणतेही ध्येय नसते. या टप्प्यात, तुम्ही त्याला प्रॉम्प्ट (prompt) आणि मानवी प्रतिसाद यांची काही हजार उदाहरणे दाखवता. यामुळे नवीन ज्ञान मिळत नाही, तर ते मॉडेलला नवीन वर्तन शिकवते. तुम्ही एखाद्या अभिनेत्याला स्क्रिप्ट देत आहात, असे समजा. केवळ मजकूर पूर्ण करण्याऐवजी मदतनीस म्हणून कसे वागावे, हे ते शिकते.
Preference Tuning (शिष्टाचार) स्क्रिप्ट्स मर्यादित असतात. तुम्ही प्रत्येक परिस्थितीसाठी नियम लिहू शकत नाही. या टप्प्यात, तुम्ही मॉडेलला दोन वेगवेगळी उत्तरे दाखवता आणि मानवाला त्यातील उत्तम उत्तर निवडू देता. मानवी आवडीनुसार उच्च स्कोअर मिळवण्यासाठी मॉडेल शिकते. यामुळे मॉडेलला आपला टोन (tone), नम्रता आणि सुरक्षिततेच्या मर्यादा प्राप्त होतात.
सारांश सोपा आहे:
- Pretraining ज्ञान निर्माण करते.
- Instruction tuning गर्दीतून एक मदतनीस निवडते.
- Preference tuning निर्णयक्षमता आणि शिष्टाचार जोडते.
चॅट विंडोमध्ये तुम्हाला दिसणारे व्यक्तिमत्व हे केवळ एका मूळ वर्ड प्रेडिक्टरच्या (word predictor) वरचा एक पातळ थर आहे. हे तयार करण्यासाठी आपल्याला बुद्धिमत्तेच्या सिद्धांताची गरज नव्हती. आपल्याला फक्त एक साधे ध्येय, स्केल आणि प्रशिक्षणाचे दोन टप्पे हवे होते.
Optional learning community: https://t.me/GyaanSetuAi
