𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial23 godziny temu2min read

Dropout był przełomem w 2014 roku. Nowoczesne modele LLM poszły naprzód.

W 2014 roku badacze wprowadzili dropout. Działał on poprzez losowe wyłączanie neuronów podczas trenowania. Zapobiegało to zapamiętywaniu danych przez sieć. Zmuszało to model do uczenia się lepszych wzorców.

Większość samouczków wciąż uczy dropoutu. Jednak największe dzisiejsze modele językowe go nie używają.

Dlaczego branża poszła naprzód?

Metoda trenowania modeli takich jak LLaMA i GPT-3 jest inna. Modele te wykorzystują jednoepokowy pretraining. Widzą każdy fragment danych tylko raz. Gdy model widzi bilion tokenów tylko raz, nie może ich łatwo zapamiętać. Przeuczenie (overfitting) nie jest w tym przypadku głównym problemem.

Duże ilości danych działają jako własna ochrona. Model trenowany na ogromnych zbiorach danych widzi wystarczającą różnorodność, aby zachować zdolność do generalizacji.

Dropout w rzeczywistości spowalnia naukę w tej skali. Najnowsze badania pokazują, że usunięcie dropoutu poprawia wydajność w modelowaniu językowym i odpowiadaniu na pytania.

Modele typu frontier, takie jak PaLM i LLaMA, nie używają dropoutu podczas pretrainingu. Niektóre modele stosują jedynie niewielką ilość dropoutu podczas fine-tuningu.

Powinieneś jednak nadal stosować dropout w tych trzech przypadkach:

Fine-tuning na małych zbiorach danych. Gdy adaptujesz model do wąskiego zadania, ryzyko przeuczenia powraca.
Modele enkoderowe. Modele używane do klasyfikacji lub rankingu wciąż odnoszą z niego korzyści.
Trenowanie na ograniczonych danych. Jeśli trenujesz model na specjalistycznych tekstach medycznych lub prawnych wielokrotnie, potrzebujesz dropoutu.

Branża znalazła lepsze sposoby na radzenie sobie ze skalą. Weight decay, LayerNorm i ogromna różnorodność danych wykonują obecnie pracę, którą wcześniej wykonywał dropout.

Obserwujemy przesunięcie w stronę wariantów strukturalnych, takich jak DropPath. Wyłączają one całe warstwy zamiast pojedynczych neuronów.

W miarę jak będziemy zmierzać w stronę większej ilości danych syntetycznych oraz małych, wysokiej jakości zbiorów danych, potrzeba regularyzacji ponownie ulegnie zmianie.

Źródło: Srivastava et al., 2014; ACL 2025 Oryginalny post: https://dev.to/gentic_news/dropout-was-a-breakthrough-in-2014-modern-llms-have-moved-on-heres-why-1d1p Opcjonalna społeczność edukacyjna: https://t.me/GyaanSetuAi

𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

Continue reading

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

𝗕𝗮𝘁𝗰𝗵 𝗻𝗼𝗿𝗺𝗮𝗹𝗶𝘇𝗲𝗱 𝗠𝗮𝘅𝗼𝘂𝘁 𝗡𝗲𝘁𝘄𝗼𝗿𝗸 𝗶𝗻 𝗡𝗲𝘁𝘄𝗼𝗿𝗸

𝗟𝗟𝗠𝘀 𝗙𝗼𝗿 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗨𝗻𝗱𝗲𝗿𝘀𝘁𝗮𝗻𝗱𝗶𝗻𝗴

𝗧𝗼𝘄𝗮𝗿𝗱𝘀 𝗭𝗲𝗿𝗼 𝗟𝗮𝗯𝗲𝗹 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴

Small Language Models in 2026: When to Drop the Big API