ट्रेनिंग के तीन दौर एक चैटबॉट बनाते हैं

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial2 सप्ताह पहले2मिनट पढ़ें

तीन चरणों का प्रशिक्षण एक चैटबॉट बनाता है

एक Transformer बनाना ही काफी नहीं है। आप इसमें पूरा इंटरनेट डाल सकते हैं और कंप्यूट पर लाखों खर्च कर सकते हैं, फिर भी अंत में आपके पास एक ऐसी मशीन होगी जो एक साधारण सवाल का जवाब भी नहीं दे पाएगी।

एक रॉ (raw) मॉडल केवल टेक्स्ट की नकल करता है। यह पैटर्न के आधार पर अगले शब्द का अनुमान लगाता है। यदि आप उससे पूछते हैं "मैं अपना राउटर रीसेट कैसे करूँ?", तो वह "मैं अपना पासवर्ड कैसे बदलूँ?" जैसे और अधिक सवालों के साथ जवाब दे सकता है। उसे यह नहीं पता कि आपको मदद चाहिए। उसे बस इतना पता है कि इंटरनेट किसी वाक्य को कैसे आगे बढ़ाता है।

इस प्रेडिक्टर (predictor) को चैटबॉट में बदलने के लिए, आपको प्रशिक्षण के तीन चरणों की आवश्यकता होती है।

Pretraining (इंजन) आप मॉडल को खरबों शब्द दिखाते हैं। आप आखिरी शब्द को छिपा देते हैं और उसे अनुमान लगाने के लिए कहते हैं। इससे ज्ञान का निर्माण होता है। यह तथ्यों, व्याकरण और तर्क को सीखता है। यह इसलिए काम करता है क्योंकि डेटा स्वयं को लेबल करता है। स्केल (Scale) इसे अनुमानित बनाता है। अधिक डेटा और अधिक कंप्यूट बेहतर परिणामों की ओर ले जाते हैं।
Instruction Tuning (स्क्रिप्ट) बेस मॉडल सब कुछ जानता है लेकिन उसका कोई लक्ष्य नहीं होता। इस चरण में, आप उसे एक प्रॉम्प्ट (prompt) के साथ एक अच्छे मानवीय उत्तर के कुछ हज़ार उदाहरण दिखाते हैं। यह नया ज्ञान नहीं जोड़ता है। यह मॉडल को एक नया व्यवहार सिखाता है। आप एक अभिनेता को स्क्रिप्ट सौंप रहे हैं। यह केवल टेक्स्ट पूरा करने के बजाय एक सहायक (assistant) की तरह काम करना सीखता है।
Preference Tuning (शिष्टाचार) स्क्रिप्ट की सीमाएं होती हैं। आप हर स्थिति के लिए नियम नहीं लिख सकते। इस चरण में, आप मॉडल को दो अलग-अलग उत्तर दिखाते हैं और एक इंसान को बेहतर उत्तर चुनने देते हैं। मॉडल मानवीय पसंद के आधार पर उच्च स्कोर प्राप्त करना सीखता है। यह मॉडल को उसका लहजा (tone), उसकी विनम्रता और उसकी सुरक्षा सीमाएं प्रदान करता है।

सारांश सरल है:

Pretraining ज्ञान का निर्माण करती है।
Instruction tuning भीड़ में से सहायक को चुनती है।
Preference tuning निर्णय लेने की क्षमता और शिष्टाचार जोड़ती है।

चैट विंडो में आप जो व्यक्तित्व देखते हैं, वह केवल एक रॉ वर्ड प्रेडिक्टर के ऊपर की एक पतली परत है। इसे बनाने के लिए हमें बुद्धिमत्ता के सिद्धांत की आवश्यकता नहीं थी। हमें केवल एक सरल लक्ष्य, स्केल और कोचिंग के दो चरणों की आवश्यकता थी।

Source: https://dev.to/karthi_raman_02ec8161bda0/three-rounds-of-training-turn-a-word-predictor-into-a-chatbot-none-of-them-are-magic-395i

Optional learning community: https://t.me/GyaanSetuAi

ट्रेनिंग के तीन दौर एक चैटबॉट बनाते हैं

पढ़ना जारी रखें

𝗙𝗿𝗼𝗺 𝗖𝗵𝗮𝘁𝗚𝗣𝗧 𝘁𝗼 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗧𝘄𝗼 𝗬𝗲𝗮𝗿𝘀 𝗮𝘀 𝗮𝗻 𝗘𝗻𝗴𝗶𝗻𝗲𝗲𝗿

मैनेज्ड एआई एजेंट्स ही असली अवसर हैं

वेबसाइट चैटबॉट एक कामचलाऊ तरीका था, समाधान नहीं

The Agentic AI Maturity Model