Dropout 2014 में एक क्रांतिकारी खोज थी। आधुनिक LLMs आगे बढ़ चुके हैं।

2014 में, शोधकर्ताओं ने dropout पेश किया था। यह ट्रेनिंग के दौरान रैंडमली न्यूरॉन्स को बंद करके काम करता था। इसने नेटवर्क को डेटा रटने (memorizing) से रोका। इसने मॉडल को बेहतर पैटर्न सीखने के लिए मजबूर किया।

अधिकांश ट्यूटोरियल अभी भी dropout सिखाते हैं। लेकिन आज के सबसे बड़े लैंग्वेज मॉडल्स इसका उपयोग नहीं करते हैं।

इंडस्ट्री आगे क्यों बढ़ गई?

LLaMA और GPT-3 जैसे मॉडल्स के लिए ट्रेनिंग का तरीका अलग है। ये मॉडल्स single-epoch pretraining का उपयोग करते हैं। वे डेटा के प्रत्येक हिस्से को केवल एक बार देखते हैं। जब एक मॉडल एक ट्रिलियन टोकन को केवल एक बार देखता है, तो वह उन्हें आसानी से याद (memorize) नहीं कर सकता। इस सेटिंग में overfitting मुख्य समस्या नहीं है।

विशाल डेटा अपने आप में एक सुरक्षा कवच का काम करता है। विशाल डेटासेट पर प्रशिक्षित एक मॉडल सामान्य (general) बने रहने के लिए पर्याप्त विविधता देखता है।

इस स्तर पर dropout वास्तव में सीखने की प्रक्रिया को धीमा कर देता है। हालिया शोध बताते हैं कि dropout को हटाने से लैंग्वेज मॉडलिंग और प्रश्न उत्तर (question answering) में प्रदर्शन में सुधार होता है।

Frontier मॉडल्स जैसे PaLM और LLaMA pretraining के दौरान dropout का उपयोग नहीं करते हैं। कुछ मॉडल्स केवल fine-tuning के दौरान बहुत कम मात्रा में dropout का उपयोग करते हैं।

आपको अभी भी इन तीन मामलों में dropout का उपयोग करना चाहिए:

  • छोटे डेटासेट पर fine-tuning। जब आप किसी मॉडल को किसी विशिष्ट कार्य (narrow task) के लिए अनुकूलित करते हैं, तो overfitting का जोखिम फिर से बढ़ जाता है।
  • Encoder मॉडल्स। वर्गीकरण (classification) या रैंकिंग के लिए उपयोग किए जाने वाले मॉडल्स को अभी भी इससे लाभ होता है।
  • सीमित डेटा पर ट्रेनिंग। यदि आप किसी मॉडल को विशेष चिकित्सा या कानूनी टेक्स्ट पर कई बार प्रशिक्षित करते हैं, तो आपको dropout की आवश्यकता होगी।

इस क्षेत्र ने स्केल को संभालने के बेहतर तरीके खोज लिए हैं। Weight decay, LayerNorm, और विशाल डेटा विविधता अब वह काम करती है जो पहले dropout करता था।

हम DropPath जैसे स्ट्रक्चर्ड वेरिएंट्स की ओर बदलाव देख रहे हैं। ये एकल न्यूरॉन्स के बजाय पूरी लेयर्स (layers) को हटा देते हैं।

जैसे-जैसे हम अधिक सिंथेटिक डेटा और छोटे, उच्च-गुणवत्ता वाले डेटासेट की ओर बढ़ेंगे, regularization की आवश्यकता फिर से बदल जाएगी।

Source: Srivastava et al., 2014; ACL 2025 Original post: https://dev.to/gentic_news/dropout-was-a-breakthrough-in-2014-modern-llms-have-moved-on-heres-why-1d1p Optional learning community: https://t.me/GyaanSetuAi