Dropout стал прорывом в 2014 году. Современные LLM ушли вперед.

В 2014 году исследователи представили dropout. Он работал путем случайного отключения нейронов во время обучения. Это мешало сети просто запоминать данные, заставляя модель выявлять более глубокие закономерности.

Большинство обучающих материалов до сих пор учат использовать dropout. Но крупнейшие современные языковые модели его не используют.

Почему индустрия пошла дальше?

Метод обучения таких моделей, как LLaMA и GPT-3, отличается. Эти модели используют одноэпохочное предобучение (single-epoch pretraining). Они видят каждый фрагмент данных лишь один раз. Когда модель видит триллион токенов всего один раз, ей трудно их просто запомнить. В таких условиях переобучение (overfitting) не является основной проблемой.

Огромные объемы данных сами по себе служат защитой. Модель, обученная на массивных наборах данных, видит достаточно разнообразия, чтобы сохранять обобщающую способность.

На таких масштабах dropout фактически замедляет обучение. Недавние исследования показывают, что отказ от dropout повышает производительность в задачах языкового моделирования и ответов на вопросы.

Передовые модели, такие как PaLM и LLaMA, не используют dropout во время предобучения. Некоторые модели применяют лишь небольшое количество dropout во время тонкой настройки (fine-tuning).

Вам все же стоит использовать dropout в трех следующих случаях:

  • Тонкая настройка (fine-tuning) на небольших наборах данных. Когда вы адаптируете модель под узкую задачу, риски переобучения возвращаются.
  • Энкодерные модели (encoder models). Модели, используемые для классификации или ранжирования, все еще получают от него выгоду.
  • Обучение на ограниченных данных. Если вы многократно обучаете модель на специализированных медицинских или юридических текстах, вам понадобится dropout.

Область нашла более эффективные способы работы с масштабом. Weight decay, LayerNorm и огромное разнообразие данных теперь выполняют ту работу, которую раньше выполнял dropout.

Мы наблюдаем переход к структурированным вариантам, таким как DropPath. Они отключают целые слои вместо отдельных нейронов.

По мере того как мы переходим к большему использованию синтетических данных и малых, но высококачественных наборов данных, потребность в регуляризации снова изменится.

Source: Srivastava et al., 2014; ACL 2025 Original post: https://dev.to/gentic_news/dropout-was-a-breakthrough-in-2014-modern-llms-have-moved-on-heres-why-1d1p Optional learning community: https://t.me/GyaanSetuAi