Sina चे VibeThinker-3B सिद्ध करते की तर्कक्षमता (Reasoning) ही ज्ञानापेक्षा (Knowledge) अधिक चांगल्या प्रकारे संकुचित (Compress) होऊ शकते

Sina ने VibeThinker-3B लाँच केले आहे, जे एक लहान लँग्वेज मॉडेल आहे. हे मॉडेल जटिल तर्कक्षमता (reasoning) कामांमध्ये मोठ्या मॉडेल्सना टक्कर देऊन पारंपारिक स्केलिंग नियमांना (scaling laws) आव्हान देते. हा शोध असे सुचवतो की, तथ्यात्मक व्याप्ती (factual breadth) मॉडेलच्या आकारावर अवलंबून असली तरी, तार्किक बुद्धिमत्ता अत्यंत कमी पॅरामीटरमध्ये सामावून घेता येते.

स्केलिंग नियमांना आव्हान: गणित आणि कोडिंगमधील उत्कृष्टता

VibeThinker-3B चे तांत्रिक निकाल थक्क करणारे आहेत. केवळ तीन अब्ज (3 billion) पॅरामीटर्स असूनही, हे मॉडेल AIME26 बेंचमार्कवर DeepSeek V3.2 आणि Kimi K2.5 सारख्या दिग्गज मॉडेल्सच्या तोडीस तोड कामगिरी करते—ज्या मॉडेल्समध्ये यापेक्षा २०० ते ३३३ पट जास्त पॅरामीटर्स आहेत.

LiveCodeBench वर, VibeThinker-3B २० अब्ज पॅरामीटरच्या मर्यादेखालील इतर सर्व मॉडेल्सपेक्षा सरस ठरले आहे. हे निकाल केवळ 'डेटा कॉन्टॅमिनेशन'चा (data contamination) परिणाम नाहीत याची खात्री करण्यासाठी, संशोधकांनी मॉडेलचे प्रशिक्षण पूर्ण झाल्यानंतर, म्हणजेच २०२६ च्या मध्यावर झालेल्या LeetCode स्पर्धांमध्ये त्याचे परीक्षण केले. या चाचण्यांमध्ये, ३B मॉडेलने १२८ पैकी १२३ समस्या पहिल्याच प्रयत्नात सोडवल्या, ज्यामुळे ते GPT-5.2 आणि Qwen3-Max सारख्या दिग्गज स्पर्धकांच्या पुढे गेले.

पॅरामीट्रिक कॉम्प्रेशन-कव्हरेज हायपोथेसिस (Parametric Compression-Coverage Hypothesis)

या संशोधनाचे सर्वात महत्त्वाचे योगदान म्हणजे "Parametric Compression-Coverage Hypothesis" ची मांडणी करणे. Sina च्या संशोधकांच्या मते, AI च्या विविध क्षमता वेगवेगळ्या प्रकारे स्केल होतात.

तार्किक तर्कक्षमता (Logical reasoning)—ज्याची वैशिष्ट्ये म्हणजे टप्प्याटप्प्याने समस्या सोडवणे, चुका सुधारणे आणि पॅटर्न मॅचिंग करणे—ही काही मर्यादित पुनरावृत्ती होणाऱ्या संरचनांवर अवलंबून असते. यामुळे "तर्कक्षमता" एका संक्षिप्त मॉडेल कोअरमध्ये अत्यंत प्रभावीपणे संकुचित (compress) करता येते. याउलट, तथ्यात्मक ज्ञानासाठी व्यापक "कव्हरेज" (coverage) आवश्यक असते. विविध क्षेत्रांतील मुक्त प्रश्नांची उत्तरे देण्यासाठी, जगातील तथ्यांचा साठा करण्यासाठी मॉडेलला मोठ्या प्रमाणात पॅरामीटर्सची आवश्यकता असते. VibeThinker-3B मधील कामगिरीतील तफावत यावरून सिद्ध होते: हे मॉडेल पडताळण्यायोग्य गणित आणि कोडिंगमध्ये उत्कृष्ट असले तरी, ज्ञान-प्रधान GPQA-Diamond बेंचमार्कवर ते मोठ्या मॉडेल्सच्या तुलनेत मागे पडते.

अचूक पोस्ट-ट्रेनिंग: यशाचे गुपित

VibeThinker-3B हे Alibaba च्या Qwen2.5-Coder-3B वर आधारित आहे, परंतु कामगिरीतील ही मोठी झेप Sina च्या प्रगत पोस्ट-ट्रेनिंग पाइपलाइनमुळे (post-training pipeline) शक्य झाली आहे. टीमने केवळ मॉडेलचा आकार वाढवण्याऐवजी, डेटाची गुणवत्ता आणि विविध सखोल टप्प्यांमधून मिळणाऱ्या व्हॅलिडेशन सिग्नल्सवर लक्ष केंद्रित केले:

  • Two-Stage Supervised Fine-Tuning (SFT): गणित, कोडिंग आणि सामान्य संवादाच्या विविध कामांवर प्रशिक्षण.
  • Multi-Stage Reinforcement Learning (RL): यशस्वी उपाय शोधण्याच्या मार्गांना बळकट करण्यासाठी गणित, प्रोग्रामिंग आणि STEM साठी विशेषतः तयार केलेले.
  • Self-Distillation: विविध तर्कक्षमता टप्प्यांमधील कौशल्ये एकाच कार्यक्षम मॉडेलमध्ये एकत्रित करणे.
  • Instruction Tuning: वापरकर्त्याच्या प्रॉम्प्ट्सचे (prompts) काटेकोरपणे पालन सुनिश्चित करण्यासाठीचा अंतिम टप्पा.

AI उद्योगासाठी हे का महत्त्वाचे आहे

हा विकास डेव्हलपर्सच्या "लहान" मॉडेल्सकडे पाहण्याच्या दृष्टिकोनात बदल दर्शवतो. ही मॉडेल्स आता केवळ साध्या कामांसाठी हलके आणि कमी खर्चाचे पर्याय राहिलेली नाहीत; तर ती पडताळण्यायोग्य आणि तर्क-आधारित वर्कफ्लोसाठी विशेष शक्ती (specialized powerhouses) बनत आहेत. जसा उद्योग 'एजेंटिक AI' (agentic AI) कडे वळत आहे—जिथे मॉडेल्सना बहु-टप्प्यांच्या प्रक्रियेतून तर्क करावा लागतो—तिथे ३B पॅरामीटर मॉडेलमध्ये उच्च-स्तरीय तर्क सामावून घेण्याची क्षमता, अत्यंत कार्यक्षम, स्थानिक आणि विशेष बुद्धिमत्तेचा मार्ग मोकळा करते, ज्यासाठी मोठ्या डेटा सेंटर्सची गरज भासणार नाही.

मुख्य निष्कर्ष

  • तर्कक्षमता संकुचित करता येते (Reasoning is Compressible): VibeThinker-3B हे सिद्ध करते की जटिल गणितीय आणि कोडिंग लॉजिक ३B मॉडेलमध्ये सामावून घेता येते, जे शेकडो पटीने मोठ्या मॉडेल्सना टक्कर देऊ शकते.
  • ज्ञानासाठी स्केल आवश्यक आहे (Knowledge Requires Scale): तर्कक्षमता कार्यक्षमतेने स्केल होत असली तरी, सामान्य ज्ञान बेंचमार्कमधील कामगिरी घसरू नये म्हणून तथ्यात्मक "कव्हरेज" साठी अजूनही मोठ्या प्रमाणात पॅरामीटर्सची आवश्यकता आहे.
  • पोस्ट-ट्रेनिंग महत्त्वाचे आहे (Post-Training is King): मॉडेलचे यश हे केवळ प्री-ट्रेनिंग स्केलवर अवलंबून नसून, विशेष बहु-टप्प्यांच्या Reinforcement Learning आणि self-distillation मुळे मिळाले आहे.