Le Dropout était une avancée majeure en 2014. Les LLM modernes sont passés à autre chose.

En 2014, des chercheurs ont introduit le dropout. Il fonctionnait en désactivant aléatoirement des neurones pendant l'entraînement. Cela empêchait le réseau de mémoriser les données. Cela forçait le modèle à apprendre de meilleurs schémas.

La plupart des tutoriels enseignent encore le dropout. Mais les plus grands modèles de langage actuels ne l'utilisent pas.

Pourquoi l'industrie est-elle passée à autre chose ?

La méthode d'entraînement pour des modèles comme LLaMA et GPT-3 est différente. Ces modèles utilisent un pré-entraînement sur un seul passage (single-epoch). Ils ne voient chaque donnée qu'une seule fois. Lorsqu'un modèle ne voit un trillion de tokens qu'une seule fois, il ne peut pas les mémoriser facilement. Le surapprentissage (overfitting) n'est pas le problème principal dans ce contexte.

Les données massives agissent comme leur propre protection. Un modèle entraîné sur des jeux de données gigantesques voit suffisamment de diversité pour rester généraliste.

Le dropout ralentit en réalité l'apprentissage à cette échelle. Des recherches récentes montrent que la suppression du dropout améliore les performances en modélisation de langage et en réponse aux questions (question answering).

Les modèles de pointe comme PaLM et LLaMA n'utilisent pas de dropout pendant le pré-entraînement. Certains modèles n'utilisent qu'une petite quantité de dropout lors du fine-tuning.

Vous devriez toujours utiliser le dropout dans ces trois cas :

  • Fine-tuning sur de petits jeux de données. Lorsque vous adaptez un modèle à une tâche spécifique, les risques de surapprentissage réapparaissent.
  • Modèles encodeurs. Les modèles utilisés pour la classification ou le classement en bénéficient encore.
  • Entraînement sur des données limitées. Si vous entraînez un modèle sur des textes médicaux ou juridiques spécialisés à plusieurs reprises, vous avez besoin du dropout.

Le domaine a trouvé de meilleures façons de gérer l'échelle. Le weight decay, la LayerNorm et la diversité massive des données accomplissent désormais le travail que le dropout effectuait auparavant.

Nous observons un passage vers des variantes structurées comme DropPath. Celles-ci désactivent des couches entières plutôt que des neurones individuels.

À mesure que nous nous dirigeons vers davantage de données synthétiques et de petits jeux de données de haute qualité, le besoin de régularisation changera à nouveau.

Source : Srivastava et al., 2014 ; ACL 2025 Post original : https://dev.to/gentic_news/dropout-was-a-breakthrough-in-2014-modern-llms-have-moved-on-heres-why-1d1p Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi