Sina का VibeThinker-3B साबित करता है कि तर्क (Reasoning) ज्ञान की तुलना में बेहतर तरीके से संकुचित (Compress) होता है

Sina ने VibeThinker-3B रिलीज़ किया है, जो एक छोटा लैंग्वेज मॉडल है जो जटिल तर्क कार्यों (reasoning tasks) में विशाल मॉडलों के बराबर प्रदर्शन करके पारंपरिक स्केलिंग नियमों (scaling laws) को चुनौती देता है। यह महत्वपूर्ण उपलब्धि बताती है कि तार्किक बुद्धिमत्ता को बहुत कम पैरामीटर फुटप्रिंट में समेटा जा सकता है, भले ही तथ्यात्मक विस्तार मॉडल के आकार से जुड़ा रहे।

स्केलिंग नियमों को चुनौती: गणित और कोडिंग में उत्कृष्टता

VibeThinker-3B के तकनीकी परिणाम आश्चर्यजनक हैं। केवल तीन बिलियन पैरामीटर होने के बावजूद, यह मॉडल AIME26 बेंचमार्क पर DeepSeek V3.2 और Kimi K2.5 जैसे दिग्गजों के बराबर प्रदर्शन करता है—ऐसे मॉडल जिनके पास 200 से 333 गुना अधिक पैरामीटर हैं।

LiveCodeBench पर, VibeThinker-3B 20 बिलियन पैरामीटर की सीमा से नीचे के हर अन्य मॉडल से बेहतर प्रदर्शन करता है। यह सुनिश्चित करने के लिए कि ये परिणाम केवल डेटा संदूषण (data contamination) का परिणाम नहीं थे, शोधकर्ताओं ने मॉडल का परीक्षण 2026 के मध्य में आयोजित LeetCode प्रतियोगिताओं पर किया, जो इसके प्रशिक्षण समाप्त होने के काफी बाद हुआ था। इन परीक्षणों में, 3B मॉडल ने पहले ही प्रयास में 128 में से 123 समस्याओं को हल किया, जिससे यह GPT-5.2 और Qwen3-Max जैसे भारी प्रतिस्पर्धियों से आगे निकल गया।

पैरामीट्रिक कंप्रेशन-कवरेज परिकल्पना (The Parametric Compression-Coverage Hypothesis)

इस शोध का सबसे महत्वपूर्ण योगदान "पैरामीट्रिक कंप्रेशन-कवरेज परिकल्पना" (Parametric Compression-Coverage Hypothesis) की शुरुआत है। Sina के शोधकर्ताओं का तर्क है कि विभिन्न AI क्षमताएं अलग-अलग तरह से स्केल करती हैं।

तार्किक तर्क (Logical reasoning)—जिसकी विशेषता चरण-दर-चरण समस्या समाधान, त्रुटि सुधार और पैटर्न मिलान है—पुनरावर्ती संरचनाओं के एक सीमित सेट पर निर्भर करता है। यह "तर्क" को एक कॉम्पैक्ट मॉडल कोर में अत्यधिक संकुचित करने की अनुमति देता है। इसके विपरीत, तथ्यात्मक ज्ञान के लिए व्यापक "कवरेज" की आवश्यकता होती है। विविध क्षेत्रों में खुले अंत वाले (open-ended) प्रश्नों का उत्तर देने के लिए, एक मॉडल को दुनिया के तथ्यों के लिए भंडारण पात्र (storage vessel) के रूप में कार्य करने हेतु भारी संख्या में पैरामीटर की आवश्यकता होती है। इसका प्रमाण VibeThinker-3B के प्रदर्शन अंतराल से मिलता है: जहाँ यह सत्यापन योग्य गणित और कोड में उत्कृष्ट है, वहीं ज्ञान-प्रधान GPQA-Diamond बेंचमार्क पर यह बड़े मॉडलों से काफी पीछे रह जाता है।

सटीक पोस्ट-ट्रेनिंग: सफलता का गुप्त मंत्र (The Secret Sauce)

VibeThinker-3B को Alibaba के Qwen2.5-Coder-3B पर बनाया गया है, लेकिन प्रदर्शन में इस बड़ी छलांग का श्रेय Sina के परिष्कृत पोस्ट-ट्रेनिंग पाइपलाइन को दिया जाता है। टीम ने केवल पैमाने (scale) पर ध्यान देने के बजाय, कई गहन चरणों के माध्यम से डेटा की गुणवत्ता और सत्यापन संकेतों (validation signals) पर ध्यान केंद्रित किया:

  • दो-चरणीय सुपरवाइज्ड फाइन-ट्यूनिंग (SFT): गणित, कोडिंग और सामान्य संवाद कार्यों की एक विस्तृत श्रृंखला पर प्रशिक्षण।
  • बहु-चरणीय सुदृढीकरण सीखना (Multi-Stage Reinforcement Learning - RL): सफल समाधान पथों को मजबूत करने के लिए विशेष रूप से गणित, प्रोग्रामिंग और STEM के लिए तैयार किया गया।
  • सेल्फ-डिस्टिलेशन (Self-Distillation): विभिन्न तर्क चरणों के कौशल को एक एकल, कुशल मॉडल में समेकित करना।
  • इंस्ट्रक्शन ट्यूनिंग (Instruction Tuning): उपयोगकर्ता के प्रॉम्प्ट का कड़ाई से पालन सुनिश्चित करने के लिए अंतिम चरण।

AI उद्योग के लिए यह क्यों महत्वपूर्ण है

यह विकास इस बात का संकेत है कि डेवलपर्स "छोटे" मॉडलों को किस तरह देखते हैं। वे अब केवल सरल कार्यों के लिए हल्के, कम लागत वाले विकल्प नहीं रह गए हैं; वे सत्यापन योग्य, तर्क-संचालित वर्कफ़्लो के लिए विशेष पावरहाउस बनते जा रहे हैं। जैसे-जैसे उद्योग 'एजेंटिक AI' (agentic AI) की ओर बढ़ रहा है—जहाँ मॉडलों को बहु-चरणीय प्रक्रियाओं के माध्यम से तर्क करना होता है—एक 3B पैरामीटर मॉडल में उच्च-स्तरीय तर्क को पैक करने की क्षमता अत्यधिक कुशल, स्थानीय और विशेष बुद्धिमत्ता का मार्ग प्रशस्त करती है, जिसे कार्य करने के लिए विशाल डेटा केंद्रों की आवश्यकता नहीं होती है।

मुख्य बातें (Key Takeaways)

  • तर्क संकुचित करने योग्य है (Reasoning is Compressible): VibeThinker-3B साबित करता है कि जटिल गणितीय और कोडिंग तर्क को 3B मॉडल में पैक किया जा सकता है, जो सैकड़ों गुना बड़े मॉडलों का मुकाबला कर सकता है।
  • ज्ञान के लिए पैमाने की आवश्यकता है: जबकि तर्क कुशलता से स्केल करता है, सामान्य ज्ञान बेंचमार्क में प्रदर्शन की गिरावट को रोकने के लिए तथ्यात्मक "कवरेज" के लिए अभी भी उच्च पैरामीटर गणना की आवश्यकता होती है।
  • पोस्ट-ट्रेनिंग ही सर्वोपरि है: मॉडल की सफलता कच्चे प्री-ट्रेनिंग पैमाने के बजाय विशेष बहु-चरणीय सुदृढीकरण लर्निंग (Reinforcement Learning) और सेल्फ-डिस्टिलेशन द्वारा संचालित है।