𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial20 घंटे पहले2मिनट पढ़ें

Dropout 2014 में एक क्रांतिकारी खोज थी। आधुनिक LLMs आगे बढ़ चुके हैं।

2014 में, शोधकर्ताओं ने dropout पेश किया था। यह ट्रेनिंग के दौरान रैंडमली न्यूरॉन्स को बंद करके काम करता था। इसने नेटवर्क को डेटा रटने (memorizing) से रोका। इसने मॉडल को बेहतर पैटर्न सीखने के लिए मजबूर किया।

अधिकांश ट्यूटोरियल अभी भी dropout सिखाते हैं। लेकिन आज के सबसे बड़े लैंग्वेज मॉडल्स इसका उपयोग नहीं करते हैं।

इंडस्ट्री आगे क्यों बढ़ गई?

LLaMA और GPT-3 जैसे मॉडल्स के लिए ट्रेनिंग का तरीका अलग है। ये मॉडल्स single-epoch pretraining का उपयोग करते हैं। वे डेटा के प्रत्येक हिस्से को केवल एक बार देखते हैं। जब एक मॉडल एक ट्रिलियन टोकन को केवल एक बार देखता है, तो वह उन्हें आसानी से याद (memorize) नहीं कर सकता। इस सेटिंग में overfitting मुख्य समस्या नहीं है।

विशाल डेटा अपने आप में एक सुरक्षा कवच का काम करता है। विशाल डेटासेट पर प्रशिक्षित एक मॉडल सामान्य (general) बने रहने के लिए पर्याप्त विविधता देखता है।

इस स्तर पर dropout वास्तव में सीखने की प्रक्रिया को धीमा कर देता है। हालिया शोध बताते हैं कि dropout को हटाने से लैंग्वेज मॉडलिंग और प्रश्न उत्तर (question answering) में प्रदर्शन में सुधार होता है।

Frontier मॉडल्स जैसे PaLM और LLaMA pretraining के दौरान dropout का उपयोग नहीं करते हैं। कुछ मॉडल्स केवल fine-tuning के दौरान बहुत कम मात्रा में dropout का उपयोग करते हैं।

आपको अभी भी इन तीन मामलों में dropout का उपयोग करना चाहिए:

छोटे डेटासेट पर fine-tuning। जब आप किसी मॉडल को किसी विशिष्ट कार्य (narrow task) के लिए अनुकूलित करते हैं, तो overfitting का जोखिम फिर से बढ़ जाता है।
Encoder मॉडल्स। वर्गीकरण (classification) या रैंकिंग के लिए उपयोग किए जाने वाले मॉडल्स को अभी भी इससे लाभ होता है।
सीमित डेटा पर ट्रेनिंग। यदि आप किसी मॉडल को विशेष चिकित्सा या कानूनी टेक्स्ट पर कई बार प्रशिक्षित करते हैं, तो आपको dropout की आवश्यकता होगी।

इस क्षेत्र ने स्केल को संभालने के बेहतर तरीके खोज लिए हैं। Weight decay, LayerNorm, और विशाल डेटा विविधता अब वह काम करती है जो पहले dropout करता था।

हम DropPath जैसे स्ट्रक्चर्ड वेरिएंट्स की ओर बदलाव देख रहे हैं। ये एकल न्यूरॉन्स के बजाय पूरी लेयर्स (layers) को हटा देते हैं।

जैसे-जैसे हम अधिक सिंथेटिक डेटा और छोटे, उच्च-गुणवत्ता वाले डेटासेट की ओर बढ़ेंगे, regularization की आवश्यकता फिर से बदल जाएगी।

Source: Srivastava et al., 2014; ACL 2025 Original post: https://dev.to/gentic_news/dropout-was-a-breakthrough-in-2014-modern-llms-have-moved-on-heres-why-1d1p Optional learning community: https://t.me/GyaanSetuAi

𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

पढ़ना जारी रखें

डोमेन-विशिष्ट LLMs AI कोड जनरेशन को बदल रहे हैं

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

नेटवर्क इन नेटवर्क में बैच नॉर्मलाइज्ड मैक्सआउट नेटवर्क

𝗟𝗟𝗠𝘀 𝗙𝗼𝗿 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗨𝗻𝗱𝗲𝗿𝘀𝘁𝗮𝗻𝗱𝗶𝗻𝗴

𝗧𝗼𝘄𝗮𝗿𝗱𝘀 𝗭𝗲𝗿𝗼 𝗟𝗮𝗯𝗲𝗹 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴