𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻. Dropoutは2014年の画期的な技術だった。現代のLLMはすでにその先へ進んでいる。
2014年、研究者たちはdropoutを導入しました。これは、学習中にニューロンをランダムにオフにすることで機能します。これにより、ネットワークがデータを丸暗記してしまうのを防ぎ、モデルにより優れたパターンを学習させることを強制しました。
ほとんどのチュートリアルでは、今でもdropoutを教えています。しかし、今日の主要な大規模言語モデルでは、それは使用されていません。
なぜ業界は次のステップへ進んだのでしょうか?
LLaMAやGPT-3のようなモデルの学習方法は異なります。これらのモデルはシングルエポック(single-epoch)の事前学習を採用しています。つまり、各データは一度しか読み込まれません。モデルが1兆ものトークンを一度しか見ない場合、それらを簡単に丸暗記することはできません。このような設定では、過学習(overfitting)は主要な問題ではないのです。
大規模なデータそのものが、一種の防御策として機能します。膨大なデータセットで学習されたモデルは、汎用性を維持するのに十分な多様性に触れることになります。
実際、この規模においてdropoutは学習を遅らせる要因となります。近年の研究では、dropoutを排除することで、言語モデリングや質問応答のパフォーマンスが向上することが示されています。
PaLMやLLaMAのような最先端のモデルは、事前学習中にdropoutを使用しません。一部のモデルでは、ファインチューニング(fine-tuning)の際にわずかな量のdropoutを使用することだけがあります。
ただし、以下の3つのケースでは、依然としてdropoutを使用すべきです:
- 小規模なデータセットでのファインチューニング。モデルを特定の狭いタスクに適応させる際、過学習のリスクが再び現れます。
- Encoderモデル。分類やランキングに使用されるモデルは、依然としてその恩恵を受けます。
- 限られたデータでの学習。専門的な医学や法律のテキストを用いてモデルを複数回学習させる場合は、dropoutが必要です。
この分野では、スケールに対応するためのより優れた方法が見つかりました。現在では、Weight decay、LayerNorm、そして膨大なデータの多様性が、かつてdropoutが行っていた役割を担っています。
また、DropPathのような構造化されたバリアントへの移行も見られます。これらは単一のニューロンではなく、レイヤー全体をドロップアウトさせます。
合成データや、小規模で高品質なデータセットへと移行が進むにつれ、正則化(regularization)の必要性は再び変化していくでしょう。
Source: Srivastava et al., 2014; ACL 2025 Original post: https://dev.to/gentic_news/dropout-was-a-breakthrough-in-2014-modern-llms-have-moved-on-heres-why-1d1p Optional learning community: https://t.me/GyaanSetuAi