Sina's VibeThinker 3B Proves Reasoning Compresses Better Than Knowledge

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial६ दिवसांपूर्वी3min read

Sina's VibeThinker 3B Proves Reasoning Compresses Better Than Knowledge

In this article

Sina चे VibeThinker-3B सिद्ध करते की तर्कक्षमता (Reasoning) ही ज्ञानापेक्षा (Knowledge) अधिक चांगल्या प्रकारे संकुचित (Compress) होऊ शकते

Sina ने VibeThinker-3B लाँच केले आहे, जे एक लहान लँग्वेज मॉडेल आहे. हे मॉडेल जटिल तर्कक्षमता (reasoning) कामांमध्ये मोठ्या मॉडेल्सना टक्कर देऊन पारंपारिक स्केलिंग नियमांना (scaling laws) आव्हान देते. हा शोध असे सुचवतो की, तथ्यात्मक व्याप्ती (factual breadth) मॉडेलच्या आकारावर अवलंबून असली तरी, तार्किक बुद्धिमत्ता अत्यंत कमी पॅरामीटरमध्ये सामावून घेता येते.

स्केलिंग नियमांना आव्हान: गणित आणि कोडिंगमधील उत्कृष्टता

VibeThinker-3B चे तांत्रिक निकाल थक्क करणारे आहेत. केवळ तीन अब्ज (3 billion) पॅरामीटर्स असूनही, हे मॉडेल AIME26 बेंचमार्कवर DeepSeek V3.2 आणि Kimi K2.5 सारख्या दिग्गज मॉडेल्सच्या तोडीस तोड कामगिरी करते—ज्या मॉडेल्समध्ये यापेक्षा २०० ते ३३३ पट जास्त पॅरामीटर्स आहेत.

LiveCodeBench वर, VibeThinker-3B २० अब्ज पॅरामीटरच्या मर्यादेखालील इतर सर्व मॉडेल्सपेक्षा सरस ठरले आहे. हे निकाल केवळ 'डेटा कॉन्टॅमिनेशन'चा (data contamination) परिणाम नाहीत याची खात्री करण्यासाठी, संशोधकांनी मॉडेलचे प्रशिक्षण पूर्ण झाल्यानंतर, म्हणजेच २०२६ च्या मध्यावर झालेल्या LeetCode स्पर्धांमध्ये त्याचे परीक्षण केले. या चाचण्यांमध्ये, ३B मॉडेलने १२८ पैकी १२३ समस्या पहिल्याच प्रयत्नात सोडवल्या, ज्यामुळे ते GPT-5.2 आणि Qwen3-Max सारख्या दिग्गज स्पर्धकांच्या पुढे गेले.

पॅरामीट्रिक कॉम्प्रेशन-कव्हरेज हायपोथेसिस (Parametric Compression-Coverage Hypothesis)

या संशोधनाचे सर्वात महत्त्वाचे योगदान म्हणजे "Parametric Compression-Coverage Hypothesis" ची मांडणी करणे. Sina च्या संशोधकांच्या मते, AI च्या विविध क्षमता वेगवेगळ्या प्रकारे स्केल होतात.

तार्किक तर्कक्षमता (Logical reasoning)—ज्याची वैशिष्ट्ये म्हणजे टप्प्याटप्प्याने समस्या सोडवणे, चुका सुधारणे आणि पॅटर्न मॅचिंग करणे—ही काही मर्यादित पुनरावृत्ती होणाऱ्या संरचनांवर अवलंबून असते. यामुळे "तर्कक्षमता" एका संक्षिप्त मॉडेल कोअरमध्ये अत्यंत प्रभावीपणे संकुचित (compress) करता येते. याउलट, तथ्यात्मक ज्ञानासाठी व्यापक "कव्हरेज" (coverage) आवश्यक असते. विविध क्षेत्रांतील मुक्त प्रश्नांची उत्तरे देण्यासाठी, जगातील तथ्यांचा साठा करण्यासाठी मॉडेलला मोठ्या प्रमाणात पॅरामीटर्सची आवश्यकता असते. VibeThinker-3B मधील कामगिरीतील तफावत यावरून सिद्ध होते: हे मॉडेल पडताळण्यायोग्य गणित आणि कोडिंगमध्ये उत्कृष्ट असले तरी, ज्ञान-प्रधान GPQA-Diamond बेंचमार्कवर ते मोठ्या मॉडेल्सच्या तुलनेत मागे पडते.

अचूक पोस्ट-ट्रेनिंग: यशाचे गुपित

VibeThinker-3B हे Alibaba च्या Qwen2.5-Coder-3B वर आधारित आहे, परंतु कामगिरीतील ही मोठी झेप Sina च्या प्रगत पोस्ट-ट्रेनिंग पाइपलाइनमुळे (post-training pipeline) शक्य झाली आहे. टीमने केवळ मॉडेलचा आकार वाढवण्याऐवजी, डेटाची गुणवत्ता आणि विविध सखोल टप्प्यांमधून मिळणाऱ्या व्हॅलिडेशन सिग्नल्सवर लक्ष केंद्रित केले:

Two-Stage Supervised Fine-Tuning (SFT): गणित, कोडिंग आणि सामान्य संवादाच्या विविध कामांवर प्रशिक्षण.
Multi-Stage Reinforcement Learning (RL): यशस्वी उपाय शोधण्याच्या मार्गांना बळकट करण्यासाठी गणित, प्रोग्रामिंग आणि STEM साठी विशेषतः तयार केलेले.
Self-Distillation: विविध तर्कक्षमता टप्प्यांमधील कौशल्ये एकाच कार्यक्षम मॉडेलमध्ये एकत्रित करणे.
Instruction Tuning: वापरकर्त्याच्या प्रॉम्प्ट्सचे (prompts) काटेकोरपणे पालन सुनिश्चित करण्यासाठीचा अंतिम टप्पा.

AI उद्योगासाठी हे का महत्त्वाचे आहे

हा विकास डेव्हलपर्सच्या "लहान" मॉडेल्सकडे पाहण्याच्या दृष्टिकोनात बदल दर्शवतो. ही मॉडेल्स आता केवळ साध्या कामांसाठी हलके आणि कमी खर्चाचे पर्याय राहिलेली नाहीत; तर ती पडताळण्यायोग्य आणि तर्क-आधारित वर्कफ्लोसाठी विशेष शक्ती (specialized powerhouses) बनत आहेत. जसा उद्योग 'एजेंटिक AI' (agentic AI) कडे वळत आहे—जिथे मॉडेल्सना बहु-टप्प्यांच्या प्रक्रियेतून तर्क करावा लागतो—तिथे ३B पॅरामीटर मॉडेलमध्ये उच्च-स्तरीय तर्क सामावून घेण्याची क्षमता, अत्यंत कार्यक्षम, स्थानिक आणि विशेष बुद्धिमत्तेचा मार्ग मोकळा करते, ज्यासाठी मोठ्या डेटा सेंटर्सची गरज भासणार नाही.

मुख्य निष्कर्ष

तर्कक्षमता संकुचित करता येते (Reasoning is Compressible): VibeThinker-3B हे सिद्ध करते की जटिल गणितीय आणि कोडिंग लॉजिक ३B मॉडेलमध्ये सामावून घेता येते, जे शेकडो पटीने मोठ्या मॉडेल्सना टक्कर देऊ शकते.
ज्ञानासाठी स्केल आवश्यक आहे (Knowledge Requires Scale): तर्कक्षमता कार्यक्षमतेने स्केल होत असली तरी, सामान्य ज्ञान बेंचमार्कमधील कामगिरी घसरू नये म्हणून तथ्यात्मक "कव्हरेज" साठी अजूनही मोठ्या प्रमाणात पॅरामीटर्सची आवश्यकता आहे.
पोस्ट-ट्रेनिंग महत्त्वाचे आहे (Post-Training is King): मॉडेलचे यश हे केवळ प्री-ट्रेनिंग स्केलवर अवलंबून नसून, विशेष बहु-टप्प्यांच्या Reinforcement Learning आणि self-distillation मुळे मिळाले आहे.

Sina's VibeThinker 3B Proves Reasoning Compresses Better Than Knowledge

Sina चे VibeThinker-3B सिद्ध करते की तर्कक्षमता (Reasoning) ही ज्ञानापेक्षा (Knowledge) अधिक चांगल्या प्रकारे संकुचित (Compress) होऊ शकते

स्केलिंग नियमांना आव्हान: गणित आणि कोडिंगमधील उत्कृष्टता

पॅरामीट्रिक कॉम्प्रेशन-कव्हरेज हायपोथेसिस (Parametric Compression-Coverage Hypothesis)

अचूक पोस्ट-ट्रेनिंग: यशाचे गुपित

AI उद्योगासाठी हे का महत्त्वाचे आहे

मुख्य निष्कर्ष

Continue reading

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

GPT तुमच्या कल्पनेपेक्षाही जास्त करू शकते

How Vibecoding is Revolutionizing Software M&A Due Diligence

Qwen3 विरुद्ध DeepSeek R1: २०२६ मध्ये कोणते मॉडेल जिंकणार?