Sina-এর VibeThinker-3B প্রমাণ করল যে জ্ঞানের চেয়ে যুক্তি (Reasoning) আরও ভালোভাবে সংকুচিত করা সম্ভব
Sina প্রকাশ করেছে VibeThinker-3B, একটি ছোট ল্যাঙ্গুয়েজ মডেল যা জটিল যুক্তি বা reasoning-এর কাজে বিশাল মডেলগুলোর সাথে পাল্লা দিয়ে প্রচলিত scaling laws-কে চ্যালেঞ্জ জানিয়েছে। এই যুগান্তকারী আবিষ্কারটি ইঙ্গিত দেয় যে, তথ্যের ব্যাপকতা (factual breadth) মডেলের আকারের ওপর নির্ভরশীল হলেও, যৌক্তিক বুদ্ধিমত্তাকে একটি ক্ষুদ্র প্যারামিটার পরিসরে সংকুচিত করা সম্ভব।
Scaling Laws-কে চ্যালেঞ্জ: গণিত এবং কোডিংয়ে শ্রেষ্ঠত্ব
VibeThinker-3B-এর প্রযুক্তিগত ফলাফলগুলো বিস্ময়কর। মাত্র তিন বিলিয়ন প্যারামিটার থাকা সত্ত্বেও, AIME26 বেঞ্চমার্কে এই মডেলটি DeepSeek V3.2 এবং Kimi K2.5-এর মতো বিশাল মডেলগুলোর সমপর্যায়ে পারফর্ম করেছে—যে মডেলগুলোর প্যারামিটার সংখ্যা ২০০ থেকে ৩৩৩ গুণ বেশি।
LiveCodeBench-এ VibeThinker-3B ২০ বিলিয়ন প্যারামিটারের নিচের প্রতিটি মডেলকে ছাড়িয়ে গেছে। এই ফলাফলগুলো যেন কেবল ডেটা কন্টামিনেশনের (data contamination) ফল না হয়, তা নিশ্চিত করতে গবেষকরা মডেলটিকে ২০২৬ সালের মাঝামাঝি সময়ে অনুষ্ঠিত LeetCode প্রতিযোগিতায় পরীক্ষা করেছেন, যা এর ট্রেনিং শেষ হওয়ার অনেক পরে। এই পরীক্ষায়, 3B মডেলটি ১২৮টি সমস্যার মধ্যে ১২৩টি প্রথম প্রচেষ্টাতেই সমাধান করেছে, যা একে GPT-5.2 এবং Qwen3-Max-এর মতো শক্তিশালী প্রতিদ্বন্দ্বীদের চেয়ে এগিয়ে রেখেছে।
Parametric Compression-Coverage Hypothesis
এই গবেষণার সবচেয়ে গুরুত্বপূর্ণ অবদান হলো "Parametric Compression-Coverage Hypothesis"-এর প্রবর্তন। Sina-এর গবেষকরা যুক্তি দিয়েছেন যে, এআই-এর বিভিন্ন সক্ষমতা ভিন্ন ভিন্ন উপায়ে স্কেল (scale) করে।
লজিক্যাল রিজনিং (Logical reasoning)—যা ধাপে ধাপে সমস্যা সমাধান, ভুল সংশোধন এবং প্যাটার্ন ম্যাচিংয়ের মাধ্যমে চিহ্নিত করা হয়—তা কিছু নির্দিষ্ট পুনরাবৃত্তিমূলক কাঠামোর ওপর নির্ভর করে। এটি "reasoning"-কে একটি ছোট মডেল কোরের মধ্যে উচ্চমাত্রায় সংকুচিত করতে সাহায্য করে। অন্যদিকে, তথ্যগত জ্ঞানের (factual knowledge) জন্য প্রয়োজন ব্যাপক "কভারেজ" (coverage)। বিভিন্ন বিষয়ের ওপর উন্মুক্ত প্রশ্নগুলোর উত্তর দিতে হলে, বিশ্বজগত সম্পর্কে তথ্য সংরক্ষণের ভাণ্ডার হিসেবে একটি মডেলের বিশাল সংখ্যক প্যারামিটার প্রয়োজন। VibeThinker-3B-এর পারফরম্যান্সের ব্যবধান এটি প্রমাণ করে: এটি যাচাইযোগ্য গণিত এবং কোডিংয়ে অসাধারণ হলেও, জ্ঞান-নির্ভর GPQA-Diamond বেঞ্চমার্কে বড় মডেলগুলোর তুলনায় অনেকটাই পিছিয়ে রয়েছে।
Precision Post-Training: আসল রহস্য
VibeThinker-3B তৈরি করা হয়েছে Alibaba-এর Qwen2.5-Coder-3B-এর ওপর ভিত্তি করে, তবে এর পারফরম্যান্সের এই বিশাল লাফটি মূলত Sina-এর উন্নত post-training পাইপলাইনের কারণে। দলটি কেবল মডেলের আকার বাড়ানোর পরিবর্তে ডেটার গুণমান এবং ভ্যালিডেশন সিগন্যালের ওপর গুরুত্ব দিয়েছে এবং এর জন্য বেশ কিছু নিবিড় ধাপ অনুসরণ করেছে:
- Two-Stage Supervised Fine-Tuning (SFT): গণিত, কোডিং এবং সাধারণ কথোপকথনের বিস্তৃত কাজের ওপর ট্রেনিং।
- Multi-Stage Reinforcement Learning (RL): সফল সমাধানের পথগুলোকে শক্তিশালী করতে বিশেষভাবে গণিত, প্রোগ্রামিং এবং STEM-এর জন্য তৈরি করা হয়েছে।
- Self-Distillation: বিভিন্ন রিজনিং পর্যায় থেকে অর্জিত দক্ষতাগুলোকে একটি একক, দক্ষ মডেলে একত্রিত করা।
- Instruction Tuning: ব্যবহারকারীর প্রম্পট বা নির্দেশাবলী সঠিকভাবে অনুসরণ নিশ্চিত করার জন্য একটি চূড়ান্ত ধাপ।
কেন এটি এআই (AI) শিল্পের জন্য গুরুত্বপূর্ণ
এই উন্নয়নটি ডেভেলপারদের "ছোট" মডেল দেখার দৃষ্টিভঙ্গিতে একটি পরিবর্তনের ইঙ্গিত দিচ্ছে। এগুলো এখন আর কেবল সাধারণ কাজের জন্য হালকা বা স্বল্পমূল্যের বিকল্প নয়; বরং এগুলো যাচাইযোগ্য এবং যুক্তি-চালিত কাজের জন্য বিশেষায়িত শক্তিশালী মডেলে পরিণত হচ্ছে। শিল্পটি যখন agentic AI-এর দিকে এগিয়ে যাচ্ছে—যেখানে মডেলগুলোকে বহু-ধাপের প্রক্রিয়ার মাধ্যমে যুক্তি দিতে হয়—তখন একটি 3B প্যারামিটার মডেলে উচ্চ-স্তরের লজিক অন্তর্ভুক্ত করার ক্ষমতা অত্যন্ত দক্ষ, লোকাল এবং বিশেষায়িত বুদ্ধিমত্তার পথ উন্মোচন করে, যার জন্য বিশাল ডেটা সেন্টারের প্রয়োজন হয় না।
মূল বিষয়সমূহ
- রিজনিং সংকুচিত করা সম্ভব: VibeThinker-3B প্রমাণ করেছে যে জটিল গাণিতিক এবং কোডিং লজিক একটি 3B মডেলে ঠাসা সম্ভব, যা শতগুণ বড় মডেলগুলোর সাথে পাল্লা দিতে পারে।
- জ্ঞানের জন্য স্কেল প্রয়োজন: রিজনিং দক্ষতার সাথে স্কেল হলেও, সাধারণ জ্ঞান সংক্রান্ত বেঞ্চমার্কে পারফরম্যান্সের অবনতি রোধ করতে তথ্যগত "কভারেজ"-এর জন্য এখনও উচ্চ প্যারামিটার সংখ্যা প্রয়োজন।
- Post-Training-ই আসল চাবিকাঠি: মডেলটির সাফল্য কেবল প্রাক-প্রশিক্ষণের (pre-training) আকারের ওপর নয়, বরং বিশেষায়িত মাল্টি-স্টেজ Reinforcement Learning এবং self-distillation-এর ওপর নির্ভরশীল।
