𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial২০ ঘন্টা আগে2min read

Dropout ছিল ২০১৪ সালের একটি যুগান্তকারী উদ্ভাবন। আধুনিক LLM-গুলো এখন তা ছাড়িয়ে গেছে।

২০১৪ সালে গবেষকরা dropout প্রবর্তন করেন। এটি প্রশিক্ষণের সময় র‍্যান্ডমলি নিউরনগুলোকে বন্ধ করে দিয়ে কাজ করত। এটি নেটওয়ার্ককে ডেটা মুখস্থ করা থেকে বিরত রাখত। এটি মডেলটিকে আরও উন্নত প্যাটার্ন শিখতে বাধ্য করত।

বেশিরভাগ টিউটোরিয়ালে এখনও dropout শেখানো হয়। কিন্তু আজকের সবচেয়ে বড় ল্যাঙ্গুয়েজ মডেলগুলো এটি ব্যবহার করে না।

কেন ইন্ডাস্ট্রি এই পদ্ধতি পরিবর্তন করে ফেলেছে?

LLaMA এবং GPT-3 এর মতো মডেলগুলোর প্রশিক্ষণের পদ্ধতি ভিন্ন। এই মডেলগুলো single-epoch pretraining ব্যবহার করে। তারা প্রতিটি ডেটা মাত্র একবার দেখে। যখন একটি মডেল এক ট্রিলিয়ন টোকেন মাত্র একবার দেখে, তখন সেগুলোকে সহজে মুখস্থ করা সম্ভব হয় না। এই পরিস্থিতিতে overfitting প্রধান সমস্যা নয়।

বিশাল পরিমাণ ডেটা নিজেই একটি সুরক্ষা হিসেবে কাজ করে। বিশাল ডেটাসেটের ওপর প্রশিক্ষিত একটি মডেল সাধারণ বা জেনেরাল থাকার জন্য যথেষ্ট বৈচিত্র্য দেখতে পায়।

এই স্কেলে dropout আসলে শেখার গতি কমিয়ে দেয়। সাম্প্রতিক গবেষণা দেখায় যে, dropout সরিয়ে ফেললে ল্যাঙ্গুয়েজ মডেলিং এবং প্রশ্নোত্তরের (question answering) পারফরম্যান্স উন্নত হয়।

PaLM এবং LLaMA এর মতো ফ্রন্টিয়ার মডেলগুলো pretraining এর সময় dropout ব্যবহার করে না। কিছু মডেল শুধুমাত্র fine-tuning এর সময় সামান্য পরিমাণে dropout ব্যবহার করে।

নিচের এই তিনটি ক্ষেত্রে আপনার এখনও dropout ব্যবহার করা উচিত:

ছোট ডেটাসেটের ওপর fine-tuning করার সময়। যখন আপনি একটি মডেলকে কোনো নির্দিষ্ট কাজের জন্য উপযোগী করে তোলেন, তখন overfitting-এর ঝুঁকি আবার ফিরে আসে।
Encoder মডেল। ক্লাসিফিকেশন বা র‍্যাঙ্কিংয়ের জন্য ব্যবহৃত মডেলগুলো এখনও এর মাধ্যমে উপকৃত হয়।
সীমিত ডেটার ওপর প্রশিক্ষণ। আপনি যদি কোনো বিশেষায়িত চিকিৎসা বা আইনি টেক্সটের ওপর বারবার একটি মডেলকে প্রশিক্ষণ দেন, তবে আপনার dropout প্রয়োজন হবে।

এই ক্ষেত্রটি স্কেল সামলানোর জন্য আরও উন্নত উপায় খুঁজে পেয়েছে। Weight decay, LayerNorm, এবং বিশাল ডেটার বৈচিত্র্য এখন সেই কাজগুলো করে যা আগে dropout করত।

আমরা DropPath এর মতো স্ট্রাকচার্ড ভ্যারিয়েন্টের দিকে একটি পরিবর্তন দেখতে পাচ্ছি। এগুলো একক নিউরনের পরিবর্তে পুরো লেয়ার (layer) বাদ দিয়ে দেয়।

আমরা যখন আরও সিন্থেটিক ডেটা এবং ছোট, উচ্চ-মানের ডেটাসেটের দিকে এগোচ্ছি, তখন regularization-এর প্রয়োজনীয়তা আবারও পরিবর্তিত হবে।

Source: Srivastava et al., 2014; ACL 2025 Original post: https://dev.to/gentic_news/dropout-was-a-breakthrough-in-2014-modern-llms-have-moved-on-heres-why-1d1p Optional learning community: https://t.me/GyaanSetuAi

𝗗𝗿𝗼𝗽𝗼𝘂𝘁 𝗪𝗮𝘀 𝗔 𝗕𝗿𝗲𝗮𝗸𝘁𝗵𝗿𝗼𝘂𝗴𝗵 𝗶𝗻 𝟮𝟬𝟭𝟰. 𝗠𝗼𝗱𝗲𝗿𝗻 𝗟𝗟𝗠𝘀 𝗛𝗮𝘃𝗲 𝗠𝗼𝘃𝗲𝗱 𝗢𝗻.

Continue reading

𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠𝘀 𝗖𝗵𝗮𝗻𝗴𝗲 𝗔𝗜 𝗖𝗼𝗱𝗲 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗟𝗟𝗠 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗶𝗻𝗴 𝟮𝟬𝟮𝟲: 𝗧𝗵𝗲 𝗨𝗹𝘁𝗶𝗺𝗮𝘁𝗲 𝗚𝘂𝗶𝗱𝗲

𝗕𝗮𝘁𝗰𝗵 𝗻𝗼𝗿𝗺𝗮𝗹𝗶𝘇𝗲𝗱 𝗠𝗮𝘅𝗼𝘂𝘁 𝗡𝗲𝘁𝘄𝗼𝗿𝗸 𝗶𝗻 𝗡𝗲𝘁𝘄𝗼𝗿𝗸

𝗟𝗟𝗠𝘀 𝗙𝗼𝗿 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗨𝗻𝗱𝗲𝗿𝘀𝘁𝗮𝗻𝗱𝗶𝗻𝗴

𝗧𝗼𝘄𝗮𝗿𝗱𝘀 𝗭𝗲𝗿𝗼 𝗟𝗮𝗯𝗲𝗹 𝗟𝗮𝗻𝗴𝘂𝗮𝗴𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴