Sina ਦਾ VibeThinker-3B ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ Reasoning ਗਿਆਨ ਨਾਲੋਂ ਬਿਹਤਰ ਤਰੀਕੇ ਨਾਲ ਸੰਕੁਚਿਤ (Compress) ਹੁੰਦਾ ਹੈ

Sina ਨੇ VibeThinker-3B release ਕੀਤਾ ਹੈ, ਜੋ ਇੱਕ ਛੋਟਾ ਭਾਸ਼ਾ ਮਾਡਲ (small language model) ਹੈ ਜੋ ਗੁੰਝਲਦਾਰ reasoning ਕੰਮਾਂ ਵਿੱਚ ਵਿਸ਼ਾਲ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਕੇ ਰਵਾਇਤੀ scaling laws ਨੂੰ ਚੁਣੌਤੀ ਦਿੰਦਾ ਹੈ। ਇਹ ਵੱਡੀ ਸਫਲਤਾ ਸੁਝਾਅ ਦਿੰਦੀ ਹੈ ਕਿ ਤਰਕਸ਼ੀਲ ਬੁੱਧੀ (logical intelligence) ਨੂੰ ਬਹੁਤ ਹੀ ਘੱਟ parameter footprint ਵਿੱਚ ਸਮੇਟਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਭਾਵੇਂ ਕਿ ਤੱਥਾਂ ਦੀ ਵਿਆਪਕਤਾ (factual breadth) ਅਜੇ ਵੀ ਮਾਡਲ ਦੇ ਆਕਾਰ ਨਾਲ ਜੁੜੀ ਹੋਵੇ।

Scaling Laws ਨੂੰ ਚੁਣੌਤੀ: ਗਣਿਤ ਅਤੇ ਕੋਡਿੰਗ ਵਿੱਚ ਉੱਤਮਤਾ

VibeThinker-3B ਦੇ ਤਕਨੀਕੀ ਨਤੀਜੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਹਨ। ਸਿਰਫ਼ ਤਿੰਨ ਅਰਬ parameters ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਮਾਡਲ AIME26 benchmark 'ਤੇ DeepSeek V3.2 ਅਤੇ Kimi K2.5 ਵਰਗੇ ਦਿੱਗਜਾਂ ਦੇ ਬਰਾਬਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ—ਜੋ ਕਿ ਅਜਿਹੇ ਮਾਡਲ ਹਨ ਜਿਨ੍ਹਾਂ ਕੋਲ 200 ਤੋਂ 333 ਗੁਣਾ ਜ਼ਿਆਦਾ parameters ਹਨ।

LiveCodeBench 'ਤੇ, VibeThinker-3B 20 ਬਿਲੀਅਨ parameter ਦੀ ਸੀਮਾ ਤੋਂ ਹੇਠਾਂ ਵਾਲੇ ਹਰ ਹੋਰ ਮਾਡਲ ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ ਇਹ ਨਤੀਜੇ ਸਿਰਫ਼ data contamination ਦਾ ਨਤੀਜਾ ਨਹੀਂ ਸਨ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਾਡਲ ਦਾ ਟੈਸਟ 2026 ਦੇ ਮੱਧ ਵਿੱਚ ਹੋਈਆਂ LeetCode ਮੁਕਾਬਲਿਆਂ 'ਤੇ ਕੀਤਾ, ਜੋ ਕਿ ਇਸਦੀ training ਖਤਮ ਹੋਣ ਤੋਂ ਕਾਫੀ ਬਾਅਦ ਹੋਈਆਂ ਸਨ। ਇਨ੍ਹਾਂ ਟੈਸਟਾਂ ਵਿੱਚ, 3B ਮਾਡਲ ਨੇ ਪਹਿਲੀ ਕੋਸ਼ਿਸ਼ ਵਿੱਚ 128 ਵਿੱਚੋਂ 123 ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕੀਤਾ, ਜੋ ਇਸਨੂੰ GPT-5.2 ਅਤੇ Qwen3-Max ਵਰਗੇ ਭਾਰੀ ਮੁਕਾਬਲੇਬਾਜ਼ਾਂ ਤੋਂ ਅੱਗੇ ਰੱਖਦਾ ਹੈ।

The Parametric Compression-Coverage Hypothesis

ਇਸ ਖੋਜ ਦਾ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਯੋਗਦਾਨ "Parametric Compression-Coverage Hypothesis" ਦੀ ਪੇਸ਼ਕਾਰੀ ਹੈ। Sina ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਦਾ ਤਰਕ ਹੈ ਕਿ ਵੱਖ-ਵੱਖ AI ਸਮਰੱਥਾਵਾਂ ਵੱਖ-ਵੱਖ ਤਰੀਕੇ ਨਾਲ scale ਹੁੰਦੀਆਂ ਹਨ।

Logical reasoning—ਜਿਸਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਕਦਮ-ਦਰ-ਕਦਮ ਸਮੱਸਿਆ ਦਾ ਹੱਲ ਕਰਨਾ, ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰਨਾ ਅਤੇ pattern matching ਹੈ—ਇੱਕ ਸੀਮਤ ਦੁਹਰਾਉਣ ਵਾਲੀਆਂ ਬਣਤਰਾਂ (recurring structures) 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਇਹ "reasoning" ਨੂੰ ਇੱਕ ਸੰਖੇਪ ਮਾਡਲ ਕੋਰ ਵਿੱਚ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸੰਕੁਚਿਤ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਇਸਦੇ ਉਲਟ, ਤੱਥਾਤਮਕ ਗਿਆਨ ਲਈ ਵਿਆਪਕ "coverage" ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਖੁੱਲ੍ਹੇ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਲਈ, ਇੱਕ ਮਾਡਲ ਨੂੰ ਵਿਸ਼ਵ ਦੇ ਤੱਥਾਂ ਲਈ ਇੱਕ ਸਟੋਰੇਜ ਵੈਸਲ ਵਜੋਂ ਕੰਮ ਕਰਨ ਲਈ ਬਹੁਤ ਵੱਡੀ ਗਿਣਤੀ ਵਿੱਚ parameters ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸਦਾ ਸਬੂਤ VibeThinker-3B ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਅੰਤਰ ਤੋਂ ਮਿਲਦਾ ਹੈ: ਜਦੋਂ ਕਿ ਇਹ ਤਸਦੀਕਯੋਗ ਗਣਿਤ ਅਤੇ ਕੋਡ ਵਿੱਚ ਉੱਤਮ ਹੈ, ਇਹ ਗਿਆਨ-ਭਾਰੀ GPQA-Diamond benchmark 'ਤੇ ਵੱਡੇ ਮਾਡਲਾਂ ਤੋਂ ਕਾਫੀ ਪਿੱਛੇ ਰਹਿ ਜਾਂਦਾ ਹੈ।

Precision Post-Training: ਅਸਲੀ ਰਾਜ਼

VibeThinker-3B Alibaba ਦੇ Qwen2.5-Coder-3B 'ਤੇ ਬਣਿਆ ਹੈ, ਪਰ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਇਸ ਵੱਡੀ ਛਾਲ ਦਾ ਸਿਹਰਾ Sina ਦੇ ਉੱਨਤ post-training pipeline ਨੂੰ ਜਾਂਦਾ ਹੈ। ਟੀਮ ਨੇ ਸਿਰਫ਼ ਵੱਡੇ ਪੈਮਾਨੇ (scale) ਤੋਂ ਹਟ ਕੇ, ਕਈ ਤੀਬਰ ਪੜਾਵਾਂ ਰਾਹੀਂ ਡੇਟਾ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ validation signals 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ:

  • Two-Stage Supervised Fine-Tuning (SFT): ਗਣਿਤ, ਕੋਡਿੰਗ ਅਤੇ ਆਮ ਸੰਵਾਦ (dialogue) ਦੇ ਵਿਸ਼ਾਲ ਰੇਂਜ 'ਤੇ ਸਿਖਲਾਈ।
  • Multi-Stage Reinforcement Learning (RL): ਸਫਲ ਹੱਲ ਦੇ ਮਾਰਗਾਂ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਲਈ ਖਾਸ ਤੌਰ 'ਤੇ ਗਣਿਤ, ਪ੍ਰੋਗਰਾਮਿੰਗ ਅਤੇ STEM ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ।
  • Self-Distillation: ਵੱਖ-ਵੱਖ reasoning ਪੜਾਵਾਂ ਤੋਂ ਹੁਨਰਾਂ ਨੂੰ ਇੱਕ ਸਿੰਗਲ, ਕੁਸ਼ਲ ਮਾਡਲ ਵਿੱਚ ਇਕੱਠਾ ਕਰਨਾ।
  • Instruction Tuning: ਯੂਜ਼ਰ ਪ੍ਰੋਂਪਟ ਦੀ ਸਖ਼ਤ ਪਾਲਣਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਇੱਕ ਅੰਤਿਮ ਪੜਾਅ।

ਇਹ AI ਉਦਯੋਗ ਲਈ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ

ਇਹ ਵਿਕਾਸ ਇਸ ਗੱਲ ਦਾ ਸੰਕੇਤ ਹੈ ਕਿ ਡਿਵੈਲਪਰ "ਛੋਟੇ" ਮਾਡਲਾਂ ਨੂੰ ਕਿਸ ਤਰ੍ਹਾਂ ਦੇਖਦੇ ਹਨ। ਉਹ ਹੁਣ ਸਿਰਫ਼ ਸਧਾਰਨ ਕੰਮਾਂ ਲਈ ਹਲਕੇ ਅਤੇ ਘੱਟ ਲਾਗਤ ਵਾਲੇ ਵਿਕਲਪ ਨਹੀਂ ਹਨ; ਉਹ ਤਸਦੀਕਯੋਗ, ਤਰਕ-ਅਧਾਰਤ workflows ਲਈ ਵਿਸ਼ੇਸ਼ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲ ਬਣ ਰਹੇ ਹਨ। ਜਿਵੇਂ ਕਿ ਉਦਯੋਗ agentic AI ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ—ਜਿੱਥੇ ਮਾਡਲਾਂ ਨੂੰ ਬਹੁ-ਪੜਾਵੀ ਪ੍ਰਕਿਰਿਆਵਾਂ ਰਾਹੀਂ ਤਰਕ ਕਰਨਾ ਪੈਂਦਾ ਹੈ—3B parameter ਮਾਡਲ ਵਿੱਚ ਉੱਚ-ਪੱਧਰੀ ਤਰਕ ਨੂੰ ਪੈਕ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਬਹੁਤ ਕੁਸ਼ਲ, ਸਥਾਨਕ (local) ਅਤੇ ਵਿਸ਼ੇਸ਼ ਬੁੱਧੀ ਵੱਲ ਇੱਕ ਰਾਹ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ ਜਿਸ ਨੂੰ ਕੰਮ ਕਰਨ ਲਈ ਵਿਸ਼ਾਲ ਡੇਟਾ ਸੈਂਟਰਾਂ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ।

ਮੁੱਖ ਗੱਲਾਂ (Key Takeaways)

  • Reasoning ਸੰਕੁਚਿਤਯੋਗ ਹੈ: VibeThinker-3B ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ ਗੁੰਝਲਦਾਰ ਗਣਿਤਕ ਅਤੇ ਕੋਡਿੰਗ ਤਰਕ ਨੂੰ 3B ਮਾਡਲ ਵਿੱਚ ਪੈਕ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਜੋ ਕਿ ਸੈਂਕੜੇ ਗੁਣਾ ਵੱਡੇ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ ਹੈ।
  • ਗਿਆਨ ਲਈ Scale ਦੀ ਲੋੜ ਹੈ: ਜਦੋਂ ਕਿ reasoning ਕੁਸ਼ਲਤਾ ਨਾਲ scale ਹੁੰਦਾ ਹੈ, ਤੱਥਾਤਮਕ "coverage" ਲਈ ਅਜੇ ਵੀ ਉੱਚ parameter ਗਿਣਤੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਤਾਂ ਜੋ ਆਮ ਗਿਆਨ ਦੇ benchmarks ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਗਿਰਾਵਟ ਨੂੰ ਰੋਕਿਆ ਜਾ ਸਕੇ।
  • Post-Training ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਹੈ: ਮਾਡਲ ਦੀ ਸਫਲਤਾ ਕੱਚੀ pre-training scale ਦੀ ਬਜਾਏ ਵਿਸ਼ੇਸ਼ ਬਹੁ-ਪੜਾਵੀ Reinforcement Learning ਅਤੇ self-distillation ਦੁਆਰਾ ਚਲਾਈ ਜਾਂਦੀ ਹੈ।