𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

Translated for your language. Lire l'original.

AI-assisted draft.

GyaanSetu Editorialil y a 20 heures2min de lecture

Le Dropout était une avancée majeure en 2014. Les LLM modernes sont passés à autre chose.

En 2014, des chercheurs ont introduit le dropout. Il fonctionnait en désactivant aléatoirement des neurones pendant l'entraînement. Cela empêchait le réseau de mémoriser les données. Cela forçait le modèle à apprendre de meilleurs schémas.

La plupart des tutoriels enseignent encore le dropout. Mais les plus grands modèles de langage actuels ne l'utilisent pas.

Pourquoi l'industrie est-elle passée à autre chose ?

La méthode d'entraînement pour des modèles comme LLaMA et GPT-3 est différente. Ces modèles utilisent un pré-entraînement sur un seul passage (single-epoch). Ils ne voient chaque donnée qu'une seule fois. Lorsqu'un modèle ne voit un trillion de tokens qu'une seule fois, il ne peut pas les mémoriser facilement. Le surapprentissage (overfitting) n'est pas le problème principal dans ce contexte.

Les données massives agissent comme leur propre protection. Un modèle entraîné sur des jeux de données gigantesques voit suffisamment de diversité pour rester généraliste.

Le dropout ralentit en réalité l'apprentissage à cette échelle. Des recherches récentes montrent que la suppression du dropout améliore les performances en modélisation de langage et en réponse aux questions (question answering).

Les modèles de pointe comme PaLM et LLaMA n'utilisent pas de dropout pendant le pré-entraînement. Certains modèles n'utilisent qu'une petite quantité de dropout lors du fine-tuning.

Vous devriez toujours utiliser le dropout dans ces trois cas :

Fine-tuning sur de petits jeux de données. Lorsque vous adaptez un modèle à une tâche spécifique, les risques de surapprentissage réapparaissent.
Modèles encodeurs. Les modèles utilisés pour la classification ou le classement en bénéficient encore.
Entraînement sur des données limitées. Si vous entraînez un modèle sur des textes médicaux ou juridiques spécialisés à plusieurs reprises, vous avez besoin du dropout.

Le domaine a trouvé de meilleures façons de gérer l'échelle. Le weight decay, la LayerNorm et la diversité massive des données accomplissent désormais le travail que le dropout effectuait auparavant.

Nous observons un passage vers des variantes structurées comme DropPath. Celles-ci désactivent des couches entières plutôt que des neurones individuels.

À mesure que nous nous dirigeons vers davantage de données synthétiques et de petits jeux de données de haute qualité, le besoin de régularisation changera à nouveau.

Source : Srivastava et al., 2014 ; ACL 2025 Post original : https://dev.to/gentic_news/dropout-was-a-breakthrough-in-2014-modern-llms-have-moved-on-heres-why-1d1p Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi

𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

Continuer la lecture

𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠𝘀 𝗖𝗵𝗮𝗻𝗴𝗲 𝗔𝗜 𝗖𝗼𝗱𝗲 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

𝗕𝗮𝘁𝗰𝗵 𝗻𝗼𝗿𝗺𝗮𝗹𝗶𝘇𝗲𝗱 𝗠𝗮𝘅𝗼𝘂𝘁 𝗡𝗲𝘁𝘄𝗼𝗿𝗸 𝗶𝗻 𝗡𝗲𝘁𝘄𝗼𝗿𝗸

Les LLM pour la compréhension du langage

𝗧𝗼𝘄𝗮𝗿𝗱𝘀 𝗭𝗲𝗿𝗼 𝗟𝗮𝗯𝗲𝗹 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴