𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.
2014-ல், ஆராய்ச்சியாளர்கள் dropout முறையை அறிமுகப்படுத்தினர். பயிற்சியின் போது நியூரான்களை (neurons) சீரற்ற முறையில் செயலிழக்கச் செய்வதன் மூலம் இது செயல்பட்டது. இது நெட்வொர்க் தரவுகளை அப்படியே மனப்பாடம் செய்வதைத் தடுத்தது. இது மாடல் சிறந்த வடிவங்களைக் (patterns) கற்றுக்கொள்ள உதவியது.
பெரும்பாலான பயிற்சிகள் (tutorials) இப்போதும் dropout முறையையே கற்பிக்கின்றன. ஆனால் இன்றைய மிகப்பெரிய மொழி மாதிரிகள் (language models) இதைப் பயன்படுத்துவதில்லை.
ஏன் இந்தத் துறை இதிலிருந்து மாறிவிட்டது?
LLaMA மற்றும் GPT-3 போன்ற மாடல்களுக்கான பயிற்சி முறை மாறுபட்டது. இந்த மாடல்கள் single-epoch pretraining முறையைப் பயன்படுத்துகின்றன. இவை ஒவ்வொரு தரவையும் ஒரு முறை மட்டுமே பார்க்கின்றன. ஒரு மாடல் ஒரு டிரில்லியன் டோக்கன்களை (tokens) ஒரே ஒரு முறை மட்டுமே பார்க்கும்போது, அவற்றை எளிதில் மனப்பாடம் செய்ய முடியாது. இந்தச் சூழலில் overfitting என்பது முக்கியப் பிரச்சனை அல்ல.
மிகப்பெரிய தரவுகள் (Large data) ஒரு பாதுகாப்பாகச் செயல்படுகின்றன. பிரம்மாண்டமான தரவுத் தொகுப்புகளில் (datasets) பயிற்சி பெற்ற ஒரு மாடல், பொதுவான தன்மையைப் பேண போதுமான மாறுபாடுகளைக் காண முடிகிறது.
இந்த அளவிலான பயிற்சியில், dropout உண்மையில் கற்றலை மெதுவாக்குகிறது. சமீபத்திய ஆய்வுகள், dropout முறையை நீக்குவது மொழி மாதிரியாக்கம் (language modeling) மற்றும் கேள்வி பதில்களில் (question answering) செயல்திறனை மேம்படுத்துவதைக் காட்டுகின்றன.
PaLM மற்றும் LLaMA போன்ற அதிநவீன (Frontier) மாடல்கள் pretraining போது dropout முறையைப் பயன்படுத்துவதில்லை. சில மாடல்கள் fine-tuning செய்யும் போது மட்டுமே மிகக் குறைந்த அளவில் dropout முறையைப் பயன்படுத்துகின்றன.
பின்வரும் மூன்று சூழல்களில் நீங்கள் இன்னும் dropout முறையைப் பயன்படுத்த வேண்டும்:
- சிறிய தரவுத் தொகுப்புகளில் fine-tuning செய்யும் போது. ஒரு மாடலை ஒரு குறிப்பிட்ட குறுகிய பணிக்கு மாற்றும்போது, overfitting அபாயங்கள் மீண்டும் வருகின்றன.
- Encoder மாடல்கள். வகைப்படுத்துதல் (classification) அல்லது தரவரிசைப்படுத்துதலுக்கு (ranking) பயன்படுத்தப்படும் மாடல்கள் இப்போதும் இதிலிருந்து பயனடைகின்றன.
- வரையறுக்கப்பட்ட தரவுகளில் பயிற்சி அளிக்கும் போது. நீங்கள் ஒரு மாடலுக்குச் சிறப்பு மருத்துவ அல்லது சட்டத் தரவுகளில் பலமுறை பயிற்சி அளித்தால், உங்களுக்கு dropout தேவைப்படும்.
இந்தத் துறை அளவிடுதலைக் (scale) கையாள்வதற்குச் சிறந்த வழிகளைக் கண்டறிந்துள்ளது. முன்பு dropout செய்த வேலையை இப்போது Weight decay, LayerNorm மற்றும் பிரம்மாண்டமான தரவு மாறுபாடுகள் செய்கின்றன.
DropPath போன்ற கட்டமைக்கப்பட்ட மாறுபாடுகளை (structured variants) நோக்கி ஒரு மாற்றம் நிகழ்வதைக் காண்கிறோம். இவை தனித்தனி நியூரான்களுக்குப் பதிலாக முழு அடுக்குகளையும் (layers) நீக்குகின்றன.
நாம் அதிக செயற்கைத் தரவுகள் (synthetic data) மற்றும் சிறிய, உயர்தரத் தரவுத் தொகுப்புகளை நோக்கி நகரும்போது, regularization-ன் தேவை மீண்டும் மாறும்.
Source: Srivastava et al., 2014; ACL 2025 Original post: https://dev.to/gentic_news/dropout-was-a-breakthrough-in-2014-modern-llms-have-moved-on-heres-why-1d1p Optional learning community: https://t.me/GyaanSetuAi