𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial23 மணிநேரம் முன்2min read

2014-ல், ஆராய்ச்சியாளர்கள் dropout முறையை அறிமுகப்படுத்தினர். பயிற்சியின் போது நியூரான்களை (neurons) சீரற்ற முறையில் செயலிழக்கச் செய்வதன் மூலம் இது செயல்பட்டது. இது நெட்வொர்க் தரவுகளை அப்படியே மனப்பாடம் செய்வதைத் தடுத்தது. இது மாடல் சிறந்த வடிவங்களைக் (patterns) கற்றுக்கொள்ள உதவியது.

பெரும்பாலான பயிற்சிகள் (tutorials) இப்போதும் dropout முறையையே கற்பிக்கின்றன. ஆனால் இன்றைய மிகப்பெரிய மொழி மாதிரிகள் (language models) இதைப் பயன்படுத்துவதில்லை.

ஏன் இந்தத் துறை இதிலிருந்து மாறிவிட்டது?

LLaMA மற்றும் GPT-3 போன்ற மாடல்களுக்கான பயிற்சி முறை மாறுபட்டது. இந்த மாடல்கள் single-epoch pretraining முறையைப் பயன்படுத்துகின்றன. இவை ஒவ்வொரு தரவையும் ஒரு முறை மட்டுமே பார்க்கின்றன. ஒரு மாடல் ஒரு டிரில்லியன் டோக்கன்களை (tokens) ஒரே ஒரு முறை மட்டுமே பார்க்கும்போது, அவற்றை எளிதில் மனப்பாடம் செய்ய முடியாது. இந்தச் சூழலில் overfitting என்பது முக்கியப் பிரச்சனை அல்ல.

மிகப்பெரிய தரவுகள் (Large data) ஒரு பாதுகாப்பாகச் செயல்படுகின்றன. பிரம்மாண்டமான தரவுத் தொகுப்புகளில் (datasets) பயிற்சி பெற்ற ஒரு மாடல், பொதுவான தன்மையைப் பேண போதுமான மாறுபாடுகளைக் காண முடிகிறது.

இந்த அளவிலான பயிற்சியில், dropout உண்மையில் கற்றலை மெதுவாக்குகிறது. சமீபத்திய ஆய்வுகள், dropout முறையை நீக்குவது மொழி மாதிரியாக்கம் (language modeling) மற்றும் கேள்வி பதில்களில் (question answering) செயல்திறனை மேம்படுத்துவதைக் காட்டுகின்றன.

PaLM மற்றும் LLaMA போன்ற அதிநவீன (Frontier) மாடல்கள் pretraining போது dropout முறையைப் பயன்படுத்துவதில்லை. சில மாடல்கள் fine-tuning செய்யும் போது மட்டுமே மிகக் குறைந்த அளவில் dropout முறையைப் பயன்படுத்துகின்றன.

பின்வரும் மூன்று சூழல்களில் நீங்கள் இன்னும் dropout முறையைப் பயன்படுத்த வேண்டும்:

சிறிய தரவுத் தொகுப்புகளில் fine-tuning செய்யும் போது. ஒரு மாடலை ஒரு குறிப்பிட்ட குறுகிய பணிக்கு மாற்றும்போது, overfitting அபாயங்கள் மீண்டும் வருகின்றன.
Encoder மாடல்கள். வகைப்படுத்துதல் (classification) அல்லது தரவரிசைப்படுத்துதலுக்கு (ranking) பயன்படுத்தப்படும் மாடல்கள் இப்போதும் இதிலிருந்து பயனடைகின்றன.
வரையறுக்கப்பட்ட தரவுகளில் பயிற்சி அளிக்கும் போது. நீங்கள் ஒரு மாடலுக்குச் சிறப்பு மருத்துவ அல்லது சட்டத் தரவுகளில் பலமுறை பயிற்சி அளித்தால், உங்களுக்கு dropout தேவைப்படும்.

இந்தத் துறை அளவிடுதலைக் (scale) கையாள்வதற்குச் சிறந்த வழிகளைக் கண்டறிந்துள்ளது. முன்பு dropout செய்த வேலையை இப்போது Weight decay, LayerNorm மற்றும் பிரம்மாண்டமான தரவு மாறுபாடுகள் செய்கின்றன.

DropPath போன்ற கட்டமைக்கப்பட்ட மாறுபாடுகளை (structured variants) நோக்கி ஒரு மாற்றம் நிகழ்வதைக் காண்கிறோம். இவை தனித்தனி நியூரான்களுக்குப் பதிலாக முழு அடுக்குகளையும் (layers) நீக்குகின்றன.

நாம் அதிக செயற்கைத் தரவுகள் (synthetic data) மற்றும் சிறிய, உயர்தரத் தரவுத் தொகுப்புகளை நோக்கி நகரும்போது, regularization-ன் தேவை மீண்டும் மாறும்.

Source: Srivastava et al., 2014; ACL 2025 Original post: https://dev.to/gentic_news/dropout-was-a-breakthrough-in-2014-modern-llms-have-moved-on-heres-why-1d1p Optional learning community: https://t.me/GyaanSetuAi

𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

Continue reading

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

𝗕𝗮𝘁𝗰𝗵 𝗻𝗼𝗿𝗺𝗮𝗹𝗶𝘇𝗲𝗱 𝗠𝗮𝘅𝗼𝘂𝘁 𝗡𝗲𝘁𝘄𝗼𝗿𝗸 𝗶𝗻 𝗡𝗲𝘁𝘄𝗼𝗿𝗸

𝗟𝗟𝗠𝘀 𝗙𝗼𝗿 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗨𝗻𝗱𝗲𝗿𝘀𝘁𝗮𝗻𝗱𝗶𝗻𝗴

பூஜ்ஜிய லேபிள் மொழி கற்றலை நோக்கி

Small Language Models in 2026: When to Drop the Big API