Dropout ছিল ২০১৪ সালের একটি যুগান্তকারী উদ্ভাবন। আধুনিক LLM-গুলো এখন তা ছাড়িয়ে গেছে।

২০১৪ সালে গবেষকরা dropout প্রবর্তন করেন। এটি প্রশিক্ষণের সময় র‍্যান্ডমলি নিউরনগুলোকে বন্ধ করে দিয়ে কাজ করত। এটি নেটওয়ার্ককে ডেটা মুখস্থ করা থেকে বিরত রাখত। এটি মডেলটিকে আরও উন্নত প্যাটার্ন শিখতে বাধ্য করত।

বেশিরভাগ টিউটোরিয়ালে এখনও dropout শেখানো হয়। কিন্তু আজকের সবচেয়ে বড় ল্যাঙ্গুয়েজ মডেলগুলো এটি ব্যবহার করে না।

কেন ইন্ডাস্ট্রি এই পদ্ধতি পরিবর্তন করে ফেলেছে?

LLaMA এবং GPT-3 এর মতো মডেলগুলোর প্রশিক্ষণের পদ্ধতি ভিন্ন। এই মডেলগুলো single-epoch pretraining ব্যবহার করে। তারা প্রতিটি ডেটা মাত্র একবার দেখে। যখন একটি মডেল এক ট্রিলিয়ন টোকেন মাত্র একবার দেখে, তখন সেগুলোকে সহজে মুখস্থ করা সম্ভব হয় না। এই পরিস্থিতিতে overfitting প্রধান সমস্যা নয়।

বিশাল পরিমাণ ডেটা নিজেই একটি সুরক্ষা হিসেবে কাজ করে। বিশাল ডেটাসেটের ওপর প্রশিক্ষিত একটি মডেল সাধারণ বা জেনেরাল থাকার জন্য যথেষ্ট বৈচিত্র্য দেখতে পায়।

এই স্কেলে dropout আসলে শেখার গতি কমিয়ে দেয়। সাম্প্রতিক গবেষণা দেখায় যে, dropout সরিয়ে ফেললে ল্যাঙ্গুয়েজ মডেলিং এবং প্রশ্নোত্তরের (question answering) পারফরম্যান্স উন্নত হয়।

PaLM এবং LLaMA এর মতো ফ্রন্টিয়ার মডেলগুলো pretraining এর সময় dropout ব্যবহার করে না। কিছু মডেল শুধুমাত্র fine-tuning এর সময় সামান্য পরিমাণে dropout ব্যবহার করে।

নিচের এই তিনটি ক্ষেত্রে আপনার এখনও dropout ব্যবহার করা উচিত:

  • ছোট ডেটাসেটের ওপর fine-tuning করার সময়। যখন আপনি একটি মডেলকে কোনো নির্দিষ্ট কাজের জন্য উপযোগী করে তোলেন, তখন overfitting-এর ঝুঁকি আবার ফিরে আসে।
  • Encoder মডেল। ক্লাসিফিকেশন বা র‍্যাঙ্কিংয়ের জন্য ব্যবহৃত মডেলগুলো এখনও এর মাধ্যমে উপকৃত হয়।
  • সীমিত ডেটার ওপর প্রশিক্ষণ। আপনি যদি কোনো বিশেষায়িত চিকিৎসা বা আইনি টেক্সটের ওপর বারবার একটি মডেলকে প্রশিক্ষণ দেন, তবে আপনার dropout প্রয়োজন হবে।

এই ক্ষেত্রটি স্কেল সামলানোর জন্য আরও উন্নত উপায় খুঁজে পেয়েছে। Weight decay, LayerNorm, এবং বিশাল ডেটার বৈচিত্র্য এখন সেই কাজগুলো করে যা আগে dropout করত।

আমরা DropPath এর মতো স্ট্রাকচার্ড ভ্যারিয়েন্টের দিকে একটি পরিবর্তন দেখতে পাচ্ছি। এগুলো একক নিউরনের পরিবর্তে পুরো লেয়ার (layer) বাদ দিয়ে দেয়।

আমরা যখন আরও সিন্থেটিক ডেটা এবং ছোট, উচ্চ-মানের ডেটাসেটের দিকে এগোচ্ছি, তখন regularization-এর প্রয়োজনীয়তা আবারও পরিবর্তিত হবে।

Source: Srivastava et al., 2014; ACL 2025 Original post: https://dev.to/gentic_news/dropout-was-a-breakthrough-in-2014-modern-llms-have-moved-on-heres-why-1d1p Optional learning community: https://t.me/GyaanSetuAi