𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorialвчера2мин чтения

Dropout стал прорывом в 2014 году. Современные LLM ушли вперед.

В 2014 году исследователи представили dropout. Он работал путем случайного отключения нейронов во время обучения. Это мешало сети просто запоминать данные, заставляя модель выявлять более глубокие закономерности.

Большинство обучающих материалов до сих пор учат использовать dropout. Но крупнейшие современные языковые модели его не используют.

Почему индустрия пошла дальше?

Метод обучения таких моделей, как LLaMA и GPT-3, отличается. Эти модели используют одноэпохочное предобучение (single-epoch pretraining). Они видят каждый фрагмент данных лишь один раз. Когда модель видит триллион токенов всего один раз, ей трудно их просто запомнить. В таких условиях переобучение (overfitting) не является основной проблемой.

Огромные объемы данных сами по себе служат защитой. Модель, обученная на массивных наборах данных, видит достаточно разнообразия, чтобы сохранять обобщающую способность.

На таких масштабах dropout фактически замедляет обучение. Недавние исследования показывают, что отказ от dropout повышает производительность в задачах языкового моделирования и ответов на вопросы.

Передовые модели, такие как PaLM и LLaMA, не используют dropout во время предобучения. Некоторые модели применяют лишь небольшое количество dropout во время тонкой настройки (fine-tuning).

Вам все же стоит использовать dropout в трех следующих случаях:

Тонкая настройка (fine-tuning) на небольших наборах данных. Когда вы адаптируете модель под узкую задачу, риски переобучения возвращаются.
Энкодерные модели (encoder models). Модели, используемые для классификации или ранжирования, все еще получают от него выгоду.
Обучение на ограниченных данных. Если вы многократно обучаете модель на специализированных медицинских или юридических текстах, вам понадобится dropout.

Область нашла более эффективные способы работы с масштабом. Weight decay, LayerNorm и огромное разнообразие данных теперь выполняют ту работу, которую раньше выполнял dropout.

Мы наблюдаем переход к структурированным вариантам, таким как DropPath. Они отключают целые слои вместо отдельных нейронов.

По мере того как мы переходим к большему использованию синтетических данных и малых, но высококачественных наборов данных, потребность в регуляризации снова изменится.

Source: Srivastava et al., 2014; ACL 2025 Original post: https://dev.to/gentic_news/dropout-was-a-breakthrough-in-2014-modern-llms-have-moved-on-heres-why-1d1p Optional learning community: https://t.me/GyaanSetuAi

𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

Продолжить чтение

Как работают трансформеры

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

Small Language Models in 2026: When to Drop the Big API