Sina کا VibeThinker-3B ثابت کرتا ہے کہ استدلال (Reasoning) معلومات کے مقابلے میں بہتر طریقے سے کمپریس ہو سکتا ہے

Sina نے VibeThinker-3B جاری کیا ہے، جو ایک چھوٹا لینگویج ماڈل ہے جو پیچیدہ استدلال کے کاموں میں بڑے ماڈلز کے برابر کارکردگی دکھا کر روایتی اسکیلنگ قوانین (scaling laws) کو چیلنج کرتا ہے۔ یہ پیش رفت بتاتی ہے کہ منطقی ذہانت کو بہت کم پیرامیٹر فٹ پرنٹ میں سمویا جا سکتا ہے، چاہے حقائق کی وسعت اب بھی ماڈل کے سائز سے وابستہ رہے۔

اسکیلنگ قوانین کو چیلنج کرنا: ریاضی اور کوڈنگ میں مہارت

VibeThinker-3B کے تکنیکی نتائج حیران کن ہیں۔ محض تین ارب پیرامیٹرز کے باوجود، یہ ماڈل AIME26 بینچ مارک پر DeepSeek V3.2 اور Kimi K2.5 جیسے بڑے ماڈلز کے برابر کارکردگی دکھاتا ہے—ایسے ماڈلز جن کے پاس 200 سے 333 گنا زیادہ پیرامیٹرز ہیں۔

LiveCodeBench پر، VibeThinker-3B 20 ارب پیرامیٹر کی حد سے نیچے موجود ہر دوسرے ماڈل سے بہتر کارکردگی دکھاتا ہے۔ یہ یقینی بنانے کے لیے کہ یہ نتائج محض ڈیٹا کنٹیمینیشن (data contamination) کا نتیجہ نہیں ہیں، محققین نے ماڈل کا تجربہ 2026 کے وسط میں ہونے والے LeetCode مقابلوں پر کیا، جو اس کی ٹریننگ مکمل ہونے کے کافی بعد ہوئے تھے۔ ان ٹیسٹوں میں، 3B ماڈل نے پہلی کوشش میں 128 میں سے 123 مسائل حل کیے، جس نے اسے GPT-5.2 اور Qwen3-Max جیسے بھاری بھرکم حریفوں سے آگے کر دیا۔

پیرامیٹرک کمپریشن-کوریج مفروضہ (Parametric Compression-Coverage Hypothesis)

اس تحقیق کا سب سے اہم حصہ "Parametric Compression-Coverage Hypothesis" کا تعارف ہے۔ Sina کے محققین کا کہنا ہے کہ AI کی مختلف صلاحیتیں مختلف طریقوں سے اسکیل ہوتی ہیں۔

منطقی استدلال (Logical reasoning)—جس کی خصوصیت مرحلہ وار مسئلہ حل کرنا، غلطیوں کی اصلاح، اور پیٹرن میچنگ ہے—محدود اور بار بار آنے والے ڈھانچوں پر انحصار کرتا ہے۔ یہ "استدلال" کو ایک مختصر ماڈل کور میں اعلیٰ درجے پر کمپریس کرنے کی اجازت دیتا ہے۔ اس کے برعکس، حقائق پر مبنی معلومات کے لیے وسیع "کوریج" کی ضرورت ہوتی ہے۔ مختلف شعبوں میں کھلے سوالات کے جوابات دینے کے لیے، ایک ماڈل کو دنیا کے حقائق کے ذخیرے کے طور پر کام کرنے کے لیے بڑی تعداد میں پیرامیٹرز کی ضرورت ہوتی ہے۔ اس کا ثبوت VibeThinker-3B کے کارکردگی کے فرق سے ملتا ہے: جہاں یہ قابلِ تصدیق ریاضی اور کوڈنگ میں بہترین ہے، وہیں یہ معلومات سے بھرپور GPQA-Diamond بینچ مارک پر بڑے ماڈلز سے کافی پیچھے رہ جاتا ہے۔

درستگی کے لیے پوسٹ ٹریننگ: اصل راز

VibeThinker-3B کی بنیاد Alibaba کے Qwen2.5-Coder-3B پر رکھی گئی ہے، لیکن کارکردگی میں اس بڑی چھلانگ کا سہرا Sina کے جدید پوسٹ ٹریننگ پائپ لائن کو جاتا ہے۔ ٹیم نے محض سائز بڑھانے کے بجائے، ڈیٹا کے معیار اور کئی شدید مراحل کے ذریعے تصدیقی اشاروں (validation signals) پر توجہ مرکوز کی۔

  • Two-Stage Supervised Fine-Tuning (SFT): ریاضی، کوڈنگ اور عمومی مکالمے کے وسیع پیمانے پر کاموں پر ٹریننگ۔
  • Multi-Stage Reinforcement Learning (RL): خاص طور پر ریاضی، پروگرامنگ اور STEM کے لیے تیار کیا گیا تاکہ کامیاب حل کے راستوں کو مضبوط بنایا جا سکے۔
  • Self-Distillation: مختلف استدلال کے مراحل سے مہارتوں کو ایک واحد، موثر ماڈل میں یکجا کرنا۔
  • Instruction Tuning: صارف کے پرامپٹس کی سختی سے پیروی کو یقینی بنانے کے لیے آخری مرحلہ۔

یہ AI کی صنعت کے لیے کیوں اہم ہے

یہ پیش رفت اس بات کا اشارہ ہے کہ ڈویلپرز اب "چھوٹے" ماڈلز کو کس نظر سے دیکھتے ہیں۔ وہ اب محض سادہ کاموں کے لیے ہلکے پھلکے اور کم لاگت کے متبادل نہیں رہے؛ بلکہ وہ قابلِ تصدیق اور منطق پر مبنی ورک فلو کے لیے خصوصی طاقتور ذرائع بن رہے ہیں۔ جیسے جیسے صنعت ایجنٹک AI (agentic AI) کی طرف بڑھ رہی ہے—جہاں ماڈلز کو کثیر مرحلہ وار عمل کے ذریعے استدلال کرنا ہوتا ہے—ایک 3B پیرامیٹر ماڈل میں اعلیٰ درجے کی منطق کو سمونے کی صلاحیت ایک انتہائی موثر، مقامی اور مخصوص ذہانت کی طرف راستہ فراہم کرتی ہے جسے کام کرنے کے لیے بڑے ڈیٹا سینٹرز کی ضرورت نہیں ہوتی۔

اہم نکات

  • استدلال کمپریس ہو سکتا ہے: VibeThinker-3B ثابت کرتا ہے کہ پیچیدہ ریاضیاتی اور کوڈنگ منطق کو 3B ماڈل میں سمویا جا سکتا ہے، جو سینکڑوں گنا بڑے ماڈلز کا مقابلہ کرتا ہے۔
  • معلومات کے لیے پیمانے (Scale) کی ضرورت ہے: اگرچہ استدلال مؤثر طریقے سے اسکیل ہوتا ہے، لیکن عمومی معلومات کے بینچ مارکس میں کارکردگی گرنے سے بچنے کے لیے حقائق کی "کوریج" کے لیے اب بھی زیادہ پیرامیٹرز کی ضرورت ہوتی ہے۔
  • پوسٹ ٹریننگ ہی اصل ہے: ماڈل کی کامیابی محض پری ٹریننگ کے سائز کے بجائے خصوصی کثیر مرحلہ وار Reinforcement Learning اور self-distillation کی وجہ سے ہے۔