Three Rounds of Training Make a Chatbot

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial२ आठवड्यांपूर्वी2min read

𝗧𝗵𝗿𝗲𝗲 𝗥𝗼𝘂𝗻𝗱𝘀 𝗼𝗳 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝗠𝗮𝗸𝗲 𝗮 𝗖𝗵𝗮𝘁𝗯𝗼𝘁 चॅटबॉट तयार करण्यासाठी प्रशिक्षणाचे तीन टप्पे

केवळ एक Transformer तयार करणे पुरेसे नाही. तुम्ही त्यात संपूर्ण इंटरनेटचा डेटा भरू शकता आणि संगणकीय प्रक्रियेवर (compute) लाखो डॉलर्स खर्च करू शकता, तरीही शेवटी तुमच्याकडे असे यंत्र असेल जे साध्या प्रश्नाचे उत्तरही देऊ शकणार नाही.

एक मूळ (raw) मॉडेल हे केवळ मजकुराची नक्कल करणारे असते. ते पॅटर्नच्या आधारे पुढचा शब्द ओळखते. जर तुम्ही त्याला "मी माझा राउटर रिसेट कसा करू?" असे विचारले, तर ते "मी माझा पासवर्ड कसा बदलू?" यांसारखे अधिक प्रश्न विचारून उत्तर देऊ शकते. तुम्हाला मदत हवी आहे हे त्याला समजत नाही. इंटरनेटवर एखादे वाक्य कसे पुढे चालू शकते, हे त्याला फक्त माहित असते.

या प्रेडिक्टरचे (predictor) चॅटबॉटमध्ये रूपांतर करण्यासाठी, तुम्हाला प्रशिक्षणाचे तीन टप्पे आवश्यक आहेत.

Pretraining (इंजिन) तुम्ही मॉडेलला ट्रिलियन्स शब्द दाखवता. तुम्ही शेवटचा शब्द लपवता आणि मॉडेलला तो ओळखण्यास सांगता. यामुळे ज्ञान निर्माण होते. ते तथ्ये, व्याकरण आणि तर्कशास्त्र शिकते. हे काम करते कारण डेटा स्वतःहून लेबलिंग करतो. स्केलमुळे (Scale) हे अधिक सुसंगत होते. अधिक डेटा आणि अधिक कॉम्प्युटमुळे अधिक चांगले परिणाम मिळतात.
Instruction Tuning (स्क्रिप्ट) बेस मॉडेलला सर्व काही माहित असते पण त्याचे कोणतेही ध्येय नसते. या टप्प्यात, तुम्ही त्याला प्रॉम्प्ट (prompt) आणि मानवी प्रतिसाद यांची काही हजार उदाहरणे दाखवता. यामुळे नवीन ज्ञान मिळत नाही, तर ते मॉडेलला नवीन वर्तन शिकवते. तुम्ही एखाद्या अभिनेत्याला स्क्रिप्ट देत आहात, असे समजा. केवळ मजकूर पूर्ण करण्याऐवजी मदतनीस म्हणून कसे वागावे, हे ते शिकते.
Preference Tuning (शिष्टाचार) स्क्रिप्ट्स मर्यादित असतात. तुम्ही प्रत्येक परिस्थितीसाठी नियम लिहू शकत नाही. या टप्प्यात, तुम्ही मॉडेलला दोन वेगवेगळी उत्तरे दाखवता आणि मानवाला त्यातील उत्तम उत्तर निवडू देता. मानवी आवडीनुसार उच्च स्कोअर मिळवण्यासाठी मॉडेल शिकते. यामुळे मॉडेलला आपला टोन (tone), नम्रता आणि सुरक्षिततेच्या मर्यादा प्राप्त होतात.

सारांश सोपा आहे:

Pretraining ज्ञान निर्माण करते.
Instruction tuning गर्दीतून एक मदतनीस निवडते.
Preference tuning निर्णयक्षमता आणि शिष्टाचार जोडते.

चॅट विंडोमध्ये तुम्हाला दिसणारे व्यक्तिमत्व हे केवळ एका मूळ वर्ड प्रेडिक्टरच्या (word predictor) वरचा एक पातळ थर आहे. हे तयार करण्यासाठी आपल्याला बुद्धिमत्तेच्या सिद्धांताची गरज नव्हती. आपल्याला फक्त एक साधे ध्येय, स्केल आणि प्रशिक्षणाचे दोन टप्पे हवे होते.

Source: https://dev.to/karthi_raman_02ec8161bda0/three-rounds-of-training-turn-a-word-predictor-into-a-chatbot-none-of-them-are-magic-395i

Optional learning community: https://t.me/GyaanSetuAi

Three Rounds of Training Make a Chatbot

Continue reading

मॅनेज्ड एआय एजंट्स हीच खरी संधी आहे

The Window to Build AI Expertise Is Closing

The Website Chatbot Was A Workaround, Not A Solution

एजेंटिक एआय मॅच्युरिटी मॉडेल