Sina's VibeThinker 3B Proves Reasoning Compresses Better Than Knowledge

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial6 రోజుల క్రితం3min read

Sina's VibeThinker 3B Proves Reasoning Compresses Better Than Knowledge

In this article

Sina యొక్క VibeThinker-3B, నాలెడ్జ్ కంటే రీజనింగ్ (Reasoning) మెరుగ్గా కంప్రెస్ అవుతుందని నిరూపించింది

Sina తన VibeThinker-3Bని విడుదల చేసింది. ఇది సంక్లిష్టమైన రీజనింగ్ టాస్క్‌లలో భారీ మోడళ్లతో సమానంగా పనిచేస్తూ, సాంప్రదాయ స్కేలింగ్ నియమాలను (scaling laws) సవాలు చేస్తోంది. ఈ విప్లవాత్మక మార్పు ద్వారా, వాస్తవాల పరిధి (factual breadth) మోడల్ పరిమాణంపై ఆధారపడి ఉన్నప్పటికీ, లాజికల్ ఇంటెలిజెన్స్‌ను చాలా తక్కువ పారామీటర్ల పరిధిలోకి కుదించవచ్చని అర్థమవుతోంది.

స్కేలింగ్ నియమాలను సవాలు చేస్తూ: గణితం మరియు కోడింగ్‌లో అత్యుత్తమ ప్రతిభ

VibeThinker-3B యొక్క సాంకేతిక ఫలితాలు అద్భుతంగా ఉన్నాయి. కేవలం మూడు బిలియన్ పారామీటర్లు మాత్రమే ఉన్నప్పటికీ, AIME26 బెంచ్‌మార్క్‌లో DeepSeek V3.2 మరియు Kimi K2.5 వంటి భారీ మోడళ్లతో ఇది సమానంగా పోరాడుతోంది. ఈ భారీ మోడళ్లు VibeThinker-3B కంటే 200 నుండి 333 రెట్లు ఎక్కువ పారామీటర్లను కలిగి ఉన్నాయి.

LiveCodeBenchలో, 20 బిలియన్ పారామీటర్ల పరిమితిలో ఉన్న అన్ని మోడళ్ల కంటే VibeThinker-3B మెరుగ్గా పనిచేసింది. ఈ ఫలితాలు కేవలం డేటా కంటామినేషన్ (data contamination) వల్ల వచ్చినవి కాదని నిర్ధారించుకోవడానికి, పరిశోధకులు దీని శిక్షణ పూర్తయిన తర్వాత, అంటే 2026 మధ్యలో జరిగిన LeetCode పోటీల ద్వారా ఈ మోడల్‌ను పరీక్షించారు. ఈ పరీక్షల్లో, 3B మోడల్ 128 సమస్యలలో 123 సమస్యలను మొదటి ప్రయత్నంలోనే పరిష్కరించింది, తద్వారా GPT-5.2 మరియు Qwen3-Max వంటి భారీ మోడళ్ల కంటే ముందు వరుసలో నిలిచింది.

పారామెట్రిక్ కంప్రెషన్-కవరేజ్ హైపోథెసిస్ (Parametric Compression-Coverage Hypothesis)

ఈ పరిశోధనలో అత్యంత ముఖ్యమైన అంశం "Parametric Compression-Coverage Hypothesis"ను పరిచయం చేయడం. వివిధ AI సామర్థ్యాలు వేర్వేరు రీతుల్లో స్కేల్ అవుతాయని Sina పరిశోధకులు వాదిస్తున్నారు.

లాజికల్ రీజనింగ్—అంటే స్టెప్-బై-స్టెప్ సమస్య పరిష్కారం, ఎర్రర్ కరెక్షన్ మరియు ప్యాటర్న్ మ్యాచింగ్—పరిమితమైన పునరావృత నిర్మాణాలపై (recurring structures) ఆధారపడి ఉంటుంది. దీనివల్ల "రీజనింగ్"ను ఒక చిన్న మోడల్ కోర్‌లోకి అధికంగా కంప్రెస్ చేయడం సాధ్యమవుతుంది. దీనికి విరుద్ధంగా, వాస్తవ జ్ఞానానికి (factual knowledge) విస్తృతమైన "కవరేజ్" అవసరం. వివిధ రంగాలకు చెందిన ప్రశ్నలకు సమాధానం చెప్పడానికి, ప్రపంచ వాస్తవాలను నిల్వ చేసే ఒక స్టోరేజ్ వెసెల్‌లా పనిచేయడానికి మోడల్‌కు భారీ సంఖ్యలో పారామీటర్లు అవసరం. VibeThinker-3B యొక్క పనితీరులోని వ్యత్యాసం దీనికి నిదర్శనం: ఇది గణితం మరియు కోడింగ్‌లో అద్భుతంగా పనిచేసినప్పటికీ, నాలెడ్జ్-హెవీ GPQA-Diamond బెంచ్‌మార్క్‌లో పెద్ద మోడళ్ల కంటే గణనీయంగా వెనుకబడి ఉంది.

ప్రిసిషన్ పోస్ట్-ట్రైనింగ్: అసలు రహస్యం

VibeThinker-3B అనేది Alibaba యొక్క Qwen2.5-Coder-3B ఆధారంగా రూపొందించబడింది, కానీ దీని పనితీరులో వచ్చిన భారీ మార్పుకు Sina యొక్క అధునాతన పోస్ట్-ట్రైనింగ్ పైప్‌లైన్ కారణం. ఈ బృందం కేవలం మోడల్ పరిమాణంపై దృష్టి పెట్టకుండా, డేటా నాణ్యత మరియు వివిధ దశల ద్వారా వచ్చే వాలిడేషన్ సిగ్నల్స్‌పై దృష్టి సారించింది:

టూ-స్టేజ్ సూపర్వైజ్డ్ ఫైన్-ట్యూనింగ్ (SFT): గణితం, కోడింగ్ మరియు సాధారణ సంభాషణ టాస్క్‌ల వంటి విస్తృత శ్రేణిపై శిక్షణ.
మల్టీ-స్టేజ్ రీఇన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL): విజయవంతమైన పరిష్కార మార్గాలను బలోపేతం చేయడానికి ప్రత్యేకంగా గణితం, ప్రోగ్రామింగ్ మరియు STEM కోసం రూపొందించబడింది.
సెల్ఫ్-డిస్టిలేషన్ (Self-Distillation): వివిధ రీజనింగ్ దశల నుండి నైపుణ్యాలను ఒకే సమర్థవంతమైన మోడల్‌లోకి ఏకీకృతం చేయడం.
ఇన్‌స్ట్రక్షన్ ట్యూనింగ్: యూజర్ ప్రాంప్ట్‌లను ఖచ్చితంగా పాటించేలా చేసే చివరి దశ.

AI పరిశ్రమకు ఇది ఎందుకు ముఖ్యం

ఈ అభివృద్ధి డెవలపర్లు "చిన్న" మోడళ్లను చూసే విధానంలో మార్పును సూచిస్తోంది. అవి ఇకపై కేవలం సాధారణ పనుల కోసం తక్కువ ఖర్చుతో కూడిన ప్రత్యామ్నాయాలు మాత్రమే కాదు; అవి ధృవీకరించదగిన, లాజిక్ ఆధారిత వర్క్‌ఫ్లోల కోసం ప్రత్యేకమైన శక్తివంతమైన సాధనాలుగా మారుతున్నాయి. పరిశ్రమ "ఏజెంటిక్ AI" (agentic AI) వైపు వెళ్తున్న కొద్దీ—అంటే మోడళ్లు బహుళ దశల ప్రక్రియల ద్వారా రీజనింగ్ చేయాల్సి వచ్చినప్పుడు—3B పారామీటర్ మోడల్‌లో ఉన్నత స్థాయి లాజిక్‌ను నింపగల సామర్థ్యం, భారీ డేటా సెంటర్ల అవసరం లేకుండానే అత్యంత సమర్థవంతమైన, లోకల్ మరియు ప్రత్యేకమైన ఇంటెలిజెన్స్‌కు మార్గాన్ని చూపుతుంది.

ముఖ్య అంశాలు

రీజనింగ్ కంప్రెస్ చేయవచ్చు: సంక్లిష్టమైన గణిత మరియు కోడింగ్ లాజిక్‌ను 3B మోడల్‌లో నింపవచ్చని, వందల రెట్లు పెద్ద మోడళ్లతో పోటీ పడగలదని VibeThinker-3B నిరూపించింది.
నాలెడ్జ్‌కు స్కేల్ అవసరం: రీజనింగ్ సమర్థవంతంగా స్కేల్ అయినప్పటికీ, జనరల్ నాలెడ్జ్ బెంచ్‌మార్క్‌లలో పనితీరు తగ్గకుండా ఉండటానికి వాస్తవ "కవరేజ్"కు ఇప్పటికీ అధిక పారామీటర్ల సంఖ్య అవసరం.
పోస్ట్-ట్రైనింగ్ కీలకం: ఈ మోడల్ విజయం కేవలం ప్రీ-ట్రైనింగ్ స్కేల్ వల్ల కాకుండా, ప్రత్యేకమైన మల్టీ-స్టేజ్ రీఇన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ మరియు సెల్ఫ్-డిస్టిలేషన్ వల్ల సాధ్యమైంది.

Sina's VibeThinker 3B Proves Reasoning Compresses Better Than Knowledge

Sina యొక్క VibeThinker-3B, నాలెడ్జ్ కంటే రీజనింగ్ (Reasoning) మెరుగ్గా కంప్రెస్ అవుతుందని నిరూపించింది

స్కేలింగ్ నియమాలను సవాలు చేస్తూ: గణితం మరియు కోడింగ్‌లో అత్యుత్తమ ప్రతిభ

పారామెట్రిక్ కంప్రెషన్-కవరేజ్ హైపోథెసిస్ (Parametric Compression-Coverage Hypothesis)

ప్రిసిషన్ పోస్ట్-ట్రైనింగ్: అసలు రహస్యం

AI పరిశ్రమకు ఇది ఎందుకు ముఖ్యం

ముఖ్య అంశాలు

Continue reading

New AA Briefcase Benchmark Reveals AI’s Struggle With Real Knowledge Work

GPT మీరు అనుకున్నదానికంటే ఎక్కువ చేస్తుంది

How Vibecoding is Revolutionizing Software M&A Due Diligence

Qwen3 vs DeepSeek R1: 2026లో ఏ మోడల్ విజయం సాధిస్తుంది?