Dropout był przełomem w 2014 roku. Nowoczesne modele LLM poszły naprzód.
W 2014 roku badacze wprowadzili dropout. Działał on poprzez losowe wyłączanie neuronów podczas trenowania. Zapobiegało to zapamiętywaniu danych przez sieć. Zmuszało to model do uczenia się lepszych wzorców.
Większość samouczków wciąż uczy dropoutu. Jednak największe dzisiejsze modele językowe go nie używają.
Dlaczego branża poszła naprzód?
Metoda trenowania modeli takich jak LLaMA i GPT-3 jest inna. Modele te wykorzystują jednoepokowy pretraining. Widzą każdy fragment danych tylko raz. Gdy model widzi bilion tokenów tylko raz, nie może ich łatwo zapamiętać. Przeuczenie (overfitting) nie jest w tym przypadku głównym problemem.
Duże ilości danych działają jako własna ochrona. Model trenowany na ogromnych zbiorach danych widzi wystarczającą różnorodność, aby zachować zdolność do generalizacji.
Dropout w rzeczywistości spowalnia naukę w tej skali. Najnowsze badania pokazują, że usunięcie dropoutu poprawia wydajność w modelowaniu językowym i odpowiadaniu na pytania.
Modele typu frontier, takie jak PaLM i LLaMA, nie używają dropoutu podczas pretrainingu. Niektóre modele stosują jedynie niewielką ilość dropoutu podczas fine-tuningu.
Powinieneś jednak nadal stosować dropout w tych trzech przypadkach:
- Fine-tuning na małych zbiorach danych. Gdy adaptujesz model do wąskiego zadania, ryzyko przeuczenia powraca.
- Modele enkoderowe. Modele używane do klasyfikacji lub rankingu wciąż odnoszą z niego korzyści.
- Trenowanie na ograniczonych danych. Jeśli trenujesz model na specjalistycznych tekstach medycznych lub prawnych wielokrotnie, potrzebujesz dropoutu.
Branża znalazła lepsze sposoby na radzenie sobie ze skalą. Weight decay, LayerNorm i ogromna różnorodność danych wykonują obecnie pracę, którą wcześniej wykonywał dropout.
Obserwujemy przesunięcie w stronę wariantów strukturalnych, takich jak DropPath. Wyłączają one całe warstwy zamiast pojedynczych neuronów.
W miarę jak będziemy zmierzać w stronę większej ilości danych syntetycznych oraz małych, wysokiej jakości zbiorów danych, potrzeba regularyzacji ponownie ulegnie zmianie.
Źródło: Srivastava et al., 2014; ACL 2025 Oryginalny post: https://dev.to/gentic_news/dropout-was-a-breakthrough-in-2014-modern-llms-have-moved-on-heres-why-1d1p Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi