Sina యొక్క VibeThinker-3B, నాలెడ్జ్ కంటే రీజనింగ్ (Reasoning) మెరుగ్గా కంప్రెస్ అవుతుందని నిరూపించింది
Sina తన VibeThinker-3Bని విడుదల చేసింది. ఇది సంక్లిష్టమైన రీజనింగ్ టాస్క్లలో భారీ మోడళ్లతో సమానంగా పనిచేస్తూ, సాంప్రదాయ స్కేలింగ్ నియమాలను (scaling laws) సవాలు చేస్తోంది. ఈ విప్లవాత్మక మార్పు ద్వారా, వాస్తవాల పరిధి (factual breadth) మోడల్ పరిమాణంపై ఆధారపడి ఉన్నప్పటికీ, లాజికల్ ఇంటెలిజెన్స్ను చాలా తక్కువ పారామీటర్ల పరిధిలోకి కుదించవచ్చని అర్థమవుతోంది.
స్కేలింగ్ నియమాలను సవాలు చేస్తూ: గణితం మరియు కోడింగ్లో అత్యుత్తమ ప్రతిభ
VibeThinker-3B యొక్క సాంకేతిక ఫలితాలు అద్భుతంగా ఉన్నాయి. కేవలం మూడు బిలియన్ పారామీటర్లు మాత్రమే ఉన్నప్పటికీ, AIME26 బెంచ్మార్క్లో DeepSeek V3.2 మరియు Kimi K2.5 వంటి భారీ మోడళ్లతో ఇది సమానంగా పోరాడుతోంది. ఈ భారీ మోడళ్లు VibeThinker-3B కంటే 200 నుండి 333 రెట్లు ఎక్కువ పారామీటర్లను కలిగి ఉన్నాయి.
LiveCodeBenchలో, 20 బిలియన్ పారామీటర్ల పరిమితిలో ఉన్న అన్ని మోడళ్ల కంటే VibeThinker-3B మెరుగ్గా పనిచేసింది. ఈ ఫలితాలు కేవలం డేటా కంటామినేషన్ (data contamination) వల్ల వచ్చినవి కాదని నిర్ధారించుకోవడానికి, పరిశోధకులు దీని శిక్షణ పూర్తయిన తర్వాత, అంటే 2026 మధ్యలో జరిగిన LeetCode పోటీల ద్వారా ఈ మోడల్ను పరీక్షించారు. ఈ పరీక్షల్లో, 3B మోడల్ 128 సమస్యలలో 123 సమస్యలను మొదటి ప్రయత్నంలోనే పరిష్కరించింది, తద్వారా GPT-5.2 మరియు Qwen3-Max వంటి భారీ మోడళ్ల కంటే ముందు వరుసలో నిలిచింది.
పారామెట్రిక్ కంప్రెషన్-కవరేజ్ హైపోథెసిస్ (Parametric Compression-Coverage Hypothesis)
ఈ పరిశోధనలో అత్యంత ముఖ్యమైన అంశం "Parametric Compression-Coverage Hypothesis"ను పరిచయం చేయడం. వివిధ AI సామర్థ్యాలు వేర్వేరు రీతుల్లో స్కేల్ అవుతాయని Sina పరిశోధకులు వాదిస్తున్నారు.
లాజికల్ రీజనింగ్—అంటే స్టెప్-బై-స్టెప్ సమస్య పరిష్కారం, ఎర్రర్ కరెక్షన్ మరియు ప్యాటర్న్ మ్యాచింగ్—పరిమితమైన పునరావృత నిర్మాణాలపై (recurring structures) ఆధారపడి ఉంటుంది. దీనివల్ల "రీజనింగ్"ను ఒక చిన్న మోడల్ కోర్లోకి అధికంగా కంప్రెస్ చేయడం సాధ్యమవుతుంది. దీనికి విరుద్ధంగా, వాస్తవ జ్ఞానానికి (factual knowledge) విస్తృతమైన "కవరేజ్" అవసరం. వివిధ రంగాలకు చెందిన ప్రశ్నలకు సమాధానం చెప్పడానికి, ప్రపంచ వాస్తవాలను నిల్వ చేసే ఒక స్టోరేజ్ వెసెల్లా పనిచేయడానికి మోడల్కు భారీ సంఖ్యలో పారామీటర్లు అవసరం. VibeThinker-3B యొక్క పనితీరులోని వ్యత్యాసం దీనికి నిదర్శనం: ఇది గణితం మరియు కోడింగ్లో అద్భుతంగా పనిచేసినప్పటికీ, నాలెడ్జ్-హెవీ GPQA-Diamond బెంచ్మార్క్లో పెద్ద మోడళ్ల కంటే గణనీయంగా వెనుకబడి ఉంది.
ప్రిసిషన్ పోస్ట్-ట్రైనింగ్: అసలు రహస్యం
VibeThinker-3B అనేది Alibaba యొక్క Qwen2.5-Coder-3B ఆధారంగా రూపొందించబడింది, కానీ దీని పనితీరులో వచ్చిన భారీ మార్పుకు Sina యొక్క అధునాతన పోస్ట్-ట్రైనింగ్ పైప్లైన్ కారణం. ఈ బృందం కేవలం మోడల్ పరిమాణంపై దృష్టి పెట్టకుండా, డేటా నాణ్యత మరియు వివిధ దశల ద్వారా వచ్చే వాలిడేషన్ సిగ్నల్స్పై దృష్టి సారించింది:
- టూ-స్టేజ్ సూపర్వైజ్డ్ ఫైన్-ట్యూనింగ్ (SFT): గణితం, కోడింగ్ మరియు సాధారణ సంభాషణ టాస్క్ల వంటి విస్తృత శ్రేణిపై శిక్షణ.
- మల్టీ-స్టేజ్ రీఇన్ఫోర్స్మెంట్ లెర్నింగ్ (RL): విజయవంతమైన పరిష్కార మార్గాలను బలోపేతం చేయడానికి ప్రత్యేకంగా గణితం, ప్రోగ్రామింగ్ మరియు STEM కోసం రూపొందించబడింది.
- సెల్ఫ్-డిస్టిలేషన్ (Self-Distillation): వివిధ రీజనింగ్ దశల నుండి నైపుణ్యాలను ఒకే సమర్థవంతమైన మోడల్లోకి ఏకీకృతం చేయడం.
- ఇన్స్ట్రక్షన్ ట్యూనింగ్: యూజర్ ప్రాంప్ట్లను ఖచ్చితంగా పాటించేలా చేసే చివరి దశ.
AI పరిశ్రమకు ఇది ఎందుకు ముఖ్యం
ఈ అభివృద్ధి డెవలపర్లు "చిన్న" మోడళ్లను చూసే విధానంలో మార్పును సూచిస్తోంది. అవి ఇకపై కేవలం సాధారణ పనుల కోసం తక్కువ ఖర్చుతో కూడిన ప్రత్యామ్నాయాలు మాత్రమే కాదు; అవి ధృవీకరించదగిన, లాజిక్ ఆధారిత వర్క్ఫ్లోల కోసం ప్రత్యేకమైన శక్తివంతమైన సాధనాలుగా మారుతున్నాయి. పరిశ్రమ "ఏజెంటిక్ AI" (agentic AI) వైపు వెళ్తున్న కొద్దీ—అంటే మోడళ్లు బహుళ దశల ప్రక్రియల ద్వారా రీజనింగ్ చేయాల్సి వచ్చినప్పుడు—3B పారామీటర్ మోడల్లో ఉన్నత స్థాయి లాజిక్ను నింపగల సామర్థ్యం, భారీ డేటా సెంటర్ల అవసరం లేకుండానే అత్యంత సమర్థవంతమైన, లోకల్ మరియు ప్రత్యేకమైన ఇంటెలిజెన్స్కు మార్గాన్ని చూపుతుంది.
ముఖ్య అంశాలు
- రీజనింగ్ కంప్రెస్ చేయవచ్చు: సంక్లిష్టమైన గణిత మరియు కోడింగ్ లాజిక్ను 3B మోడల్లో నింపవచ్చని, వందల రెట్లు పెద్ద మోడళ్లతో పోటీ పడగలదని VibeThinker-3B నిరూపించింది.
- నాలెడ్జ్కు స్కేల్ అవసరం: రీజనింగ్ సమర్థవంతంగా స్కేల్ అయినప్పటికీ, జనరల్ నాలెడ్జ్ బెంచ్మార్క్లలో పనితీరు తగ్గకుండా ఉండటానికి వాస్తవ "కవరేజ్"కు ఇప్పటికీ అధిక పారామీటర్ల సంఖ్య అవసరం.
- పోస్ట్-ట్రైనింగ్ కీలకం: ఈ మోడల్ విజయం కేవలం ప్రీ-ట్రైనింగ్ స్కేల్ వల్ల కాకుండా, ప్రత్యేకమైన మల్టీ-స్టేజ్ రీఇన్ఫోర్స్మెంట్ లెర్నింగ్ మరియు సెల్ఫ్-డిస్టిలేషన్ వల్ల సాధ్యమైంది.
