Sina's VibeThinker 3B Proves Reasoning Compresses Better Than Knowledge

Translated for your language. Read the original.

AI-assisted draft.

Sina's VibeThinker 3B Proves Reasoning Compresses Better Than Knowledge

In this article

Sina ਦਾ VibeThinker-3B ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ Reasoning ਗਿਆਨ ਨਾਲੋਂ ਬਿਹਤਰ ਤਰੀਕੇ ਨਾਲ ਸੰਕੁਚਿਤ (Compress) ਹੁੰਦਾ ਹੈ

Sina ਨੇ VibeThinker-3B release ਕੀਤਾ ਹੈ, ਜੋ ਇੱਕ ਛੋਟਾ ਭਾਸ਼ਾ ਮਾਡਲ (small language model) ਹੈ ਜੋ ਗੁੰਝਲਦਾਰ reasoning ਕੰਮਾਂ ਵਿੱਚ ਵਿਸ਼ਾਲ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਕੇ ਰਵਾਇਤੀ scaling laws ਨੂੰ ਚੁਣੌਤੀ ਦਿੰਦਾ ਹੈ। ਇਹ ਵੱਡੀ ਸਫਲਤਾ ਸੁਝਾਅ ਦਿੰਦੀ ਹੈ ਕਿ ਤਰਕਸ਼ੀਲ ਬੁੱਧੀ (logical intelligence) ਨੂੰ ਬਹੁਤ ਹੀ ਘੱਟ parameter footprint ਵਿੱਚ ਸਮੇਟਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਭਾਵੇਂ ਕਿ ਤੱਥਾਂ ਦੀ ਵਿਆਪਕਤਾ (factual breadth) ਅਜੇ ਵੀ ਮਾਡਲ ਦੇ ਆਕਾਰ ਨਾਲ ਜੁੜੀ ਹੋਵੇ।

Scaling Laws ਨੂੰ ਚੁਣੌਤੀ: ਗਣਿਤ ਅਤੇ ਕੋਡਿੰਗ ਵਿੱਚ ਉੱਤਮਤਾ

VibeThinker-3B ਦੇ ਤਕਨੀਕੀ ਨਤੀਜੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਹਨ। ਸਿਰਫ਼ ਤਿੰਨ ਅਰਬ parameters ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਮਾਡਲ AIME26 benchmark 'ਤੇ DeepSeek V3.2 ਅਤੇ Kimi K2.5 ਵਰਗੇ ਦਿੱਗਜਾਂ ਦੇ ਬਰਾਬਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ—ਜੋ ਕਿ ਅਜਿਹੇ ਮਾਡਲ ਹਨ ਜਿਨ੍ਹਾਂ ਕੋਲ 200 ਤੋਂ 333 ਗੁਣਾ ਜ਼ਿਆਦਾ parameters ਹਨ।

LiveCodeBench 'ਤੇ, VibeThinker-3B 20 ਬਿਲੀਅਨ parameter ਦੀ ਸੀਮਾ ਤੋਂ ਹੇਠਾਂ ਵਾਲੇ ਹਰ ਹੋਰ ਮਾਡਲ ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਿ ਇਹ ਨਤੀਜੇ ਸਿਰਫ਼ data contamination ਦਾ ਨਤੀਜਾ ਨਹੀਂ ਸਨ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਾਡਲ ਦਾ ਟੈਸਟ 2026 ਦੇ ਮੱਧ ਵਿੱਚ ਹੋਈਆਂ LeetCode ਮੁਕਾਬਲਿਆਂ 'ਤੇ ਕੀਤਾ, ਜੋ ਕਿ ਇਸਦੀ training ਖਤਮ ਹੋਣ ਤੋਂ ਕਾਫੀ ਬਾਅਦ ਹੋਈਆਂ ਸਨ। ਇਨ੍ਹਾਂ ਟੈਸਟਾਂ ਵਿੱਚ, 3B ਮਾਡਲ ਨੇ ਪਹਿਲੀ ਕੋਸ਼ਿਸ਼ ਵਿੱਚ 128 ਵਿੱਚੋਂ 123 ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕੀਤਾ, ਜੋ ਇਸਨੂੰ GPT-5.2 ਅਤੇ Qwen3-Max ਵਰਗੇ ਭਾਰੀ ਮੁਕਾਬਲੇਬਾਜ਼ਾਂ ਤੋਂ ਅੱਗੇ ਰੱਖਦਾ ਹੈ।

The Parametric Compression-Coverage Hypothesis

ਇਸ ਖੋਜ ਦਾ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਯੋਗਦਾਨ "Parametric Compression-Coverage Hypothesis" ਦੀ ਪੇਸ਼ਕਾਰੀ ਹੈ। Sina ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਦਾ ਤਰਕ ਹੈ ਕਿ ਵੱਖ-ਵੱਖ AI ਸਮਰੱਥਾਵਾਂ ਵੱਖ-ਵੱਖ ਤਰੀਕੇ ਨਾਲ scale ਹੁੰਦੀਆਂ ਹਨ।

Logical reasoning—ਜਿਸਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਕਦਮ-ਦਰ-ਕਦਮ ਸਮੱਸਿਆ ਦਾ ਹੱਲ ਕਰਨਾ, ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰਨਾ ਅਤੇ pattern matching ਹੈ—ਇੱਕ ਸੀਮਤ ਦੁਹਰਾਉਣ ਵਾਲੀਆਂ ਬਣਤਰਾਂ (recurring structures) 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਇਹ "reasoning" ਨੂੰ ਇੱਕ ਸੰਖੇਪ ਮਾਡਲ ਕੋਰ ਵਿੱਚ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸੰਕੁਚਿਤ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਇਸਦੇ ਉਲਟ, ਤੱਥਾਤਮਕ ਗਿਆਨ ਲਈ ਵਿਆਪਕ "coverage" ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਖੁੱਲ੍ਹੇ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਲਈ, ਇੱਕ ਮਾਡਲ ਨੂੰ ਵਿਸ਼ਵ ਦੇ ਤੱਥਾਂ ਲਈ ਇੱਕ ਸਟੋਰੇਜ ਵੈਸਲ ਵਜੋਂ ਕੰਮ ਕਰਨ ਲਈ ਬਹੁਤ ਵੱਡੀ ਗਿਣਤੀ ਵਿੱਚ parameters ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸਦਾ ਸਬੂਤ VibeThinker-3B ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਅੰਤਰ ਤੋਂ ਮਿਲਦਾ ਹੈ: ਜਦੋਂ ਕਿ ਇਹ ਤਸਦੀਕਯੋਗ ਗਣਿਤ ਅਤੇ ਕੋਡ ਵਿੱਚ ਉੱਤਮ ਹੈ, ਇਹ ਗਿਆਨ-ਭਾਰੀ GPQA-Diamond benchmark 'ਤੇ ਵੱਡੇ ਮਾਡਲਾਂ ਤੋਂ ਕਾਫੀ ਪਿੱਛੇ ਰਹਿ ਜਾਂਦਾ ਹੈ।

Precision Post-Training: ਅਸਲੀ ਰਾਜ਼

VibeThinker-3B Alibaba ਦੇ Qwen2.5-Coder-3B 'ਤੇ ਬਣਿਆ ਹੈ, ਪਰ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਇਸ ਵੱਡੀ ਛਾਲ ਦਾ ਸਿਹਰਾ Sina ਦੇ ਉੱਨਤ post-training pipeline ਨੂੰ ਜਾਂਦਾ ਹੈ। ਟੀਮ ਨੇ ਸਿਰਫ਼ ਵੱਡੇ ਪੈਮਾਨੇ (scale) ਤੋਂ ਹਟ ਕੇ, ਕਈ ਤੀਬਰ ਪੜਾਵਾਂ ਰਾਹੀਂ ਡੇਟਾ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ validation signals 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ:

Two-Stage Supervised Fine-Tuning (SFT): ਗਣਿਤ, ਕੋਡਿੰਗ ਅਤੇ ਆਮ ਸੰਵਾਦ (dialogue) ਦੇ ਵਿਸ਼ਾਲ ਰੇਂਜ 'ਤੇ ਸਿਖਲਾਈ।
Multi-Stage Reinforcement Learning (RL): ਸਫਲ ਹੱਲ ਦੇ ਮਾਰਗਾਂ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਲਈ ਖਾਸ ਤੌਰ 'ਤੇ ਗਣਿਤ, ਪ੍ਰੋਗਰਾਮਿੰਗ ਅਤੇ STEM ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ।
Self-Distillation: ਵੱਖ-ਵੱਖ reasoning ਪੜਾਵਾਂ ਤੋਂ ਹੁਨਰਾਂ ਨੂੰ ਇੱਕ ਸਿੰਗਲ, ਕੁਸ਼ਲ ਮਾਡਲ ਵਿੱਚ ਇਕੱਠਾ ਕਰਨਾ।
Instruction Tuning: ਯੂਜ਼ਰ ਪ੍ਰੋਂਪਟ ਦੀ ਸਖ਼ਤ ਪਾਲਣਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਇੱਕ ਅੰਤਿਮ ਪੜਾਅ।

ਇਹ AI ਉਦਯੋਗ ਲਈ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ

ਇਹ ਵਿਕਾਸ ਇਸ ਗੱਲ ਦਾ ਸੰਕੇਤ ਹੈ ਕਿ ਡਿਵੈਲਪਰ "ਛੋਟੇ" ਮਾਡਲਾਂ ਨੂੰ ਕਿਸ ਤਰ੍ਹਾਂ ਦੇਖਦੇ ਹਨ। ਉਹ ਹੁਣ ਸਿਰਫ਼ ਸਧਾਰਨ ਕੰਮਾਂ ਲਈ ਹਲਕੇ ਅਤੇ ਘੱਟ ਲਾਗਤ ਵਾਲੇ ਵਿਕਲਪ ਨਹੀਂ ਹਨ; ਉਹ ਤਸਦੀਕਯੋਗ, ਤਰਕ-ਅਧਾਰਤ workflows ਲਈ ਵਿਸ਼ੇਸ਼ ਸ਼ਕਤੀਸ਼ਾਲੀ ਮਾਡਲ ਬਣ ਰਹੇ ਹਨ। ਜਿਵੇਂ ਕਿ ਉਦਯੋਗ agentic AI ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ—ਜਿੱਥੇ ਮਾਡਲਾਂ ਨੂੰ ਬਹੁ-ਪੜਾਵੀ ਪ੍ਰਕਿਰਿਆਵਾਂ ਰਾਹੀਂ ਤਰਕ ਕਰਨਾ ਪੈਂਦਾ ਹੈ—3B parameter ਮਾਡਲ ਵਿੱਚ ਉੱਚ-ਪੱਧਰੀ ਤਰਕ ਨੂੰ ਪੈਕ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਬਹੁਤ ਕੁਸ਼ਲ, ਸਥਾਨਕ (local) ਅਤੇ ਵਿਸ਼ੇਸ਼ ਬੁੱਧੀ ਵੱਲ ਇੱਕ ਰਾਹ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ ਜਿਸ ਨੂੰ ਕੰਮ ਕਰਨ ਲਈ ਵਿਸ਼ਾਲ ਡੇਟਾ ਸੈਂਟਰਾਂ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ।

ਮੁੱਖ ਗੱਲਾਂ (Key Takeaways)

Reasoning ਸੰਕੁਚਿਤਯੋਗ ਹੈ: VibeThinker-3B ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ ਗੁੰਝਲਦਾਰ ਗਣਿਤਕ ਅਤੇ ਕੋਡਿੰਗ ਤਰਕ ਨੂੰ 3B ਮਾਡਲ ਵਿੱਚ ਪੈਕ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਜੋ ਕਿ ਸੈਂਕੜੇ ਗੁਣਾ ਵੱਡੇ ਮਾਡਲਾਂ ਦੇ ਬਰਾਬਰ ਹੈ।
ਗਿਆਨ ਲਈ Scale ਦੀ ਲੋੜ ਹੈ: ਜਦੋਂ ਕਿ reasoning ਕੁਸ਼ਲਤਾ ਨਾਲ scale ਹੁੰਦਾ ਹੈ, ਤੱਥਾਤਮਕ "coverage" ਲਈ ਅਜੇ ਵੀ ਉੱਚ parameter ਗਿਣਤੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਤਾਂ ਜੋ ਆਮ ਗਿਆਨ ਦੇ benchmarks ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਗਿਰਾਵਟ ਨੂੰ ਰੋਕਿਆ ਜਾ ਸਕੇ।
Post-Training ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਹੈ: ਮਾਡਲ ਦੀ ਸਫਲਤਾ ਕੱਚੀ pre-training scale ਦੀ ਬਜਾਏ ਵਿਸ਼ੇਸ਼ ਬਹੁ-ਪੜਾਵੀ Reinforcement Learning ਅਤੇ self-distillation ਦੁਆਰਾ ਚਲਾਈ ਜਾਂਦੀ ਹੈ।

Sina's VibeThinker 3B Proves Reasoning Compresses Better Than Knowledge

Sina ਦਾ VibeThinker-3B ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ Reasoning ਗਿਆਨ ਨਾਲੋਂ ਬਿਹਤਰ ਤਰੀਕੇ ਨਾਲ ਸੰਕੁਚਿਤ (Compress) ਹੁੰਦਾ ਹੈ

Scaling Laws ਨੂੰ ਚੁਣੌਤੀ: ਗਣਿਤ ਅਤੇ ਕੋਡਿੰਗ ਵਿੱਚ ਉੱਤਮਤਾ

The Parametric Compression-Coverage Hypothesis

Precision Post-Training: ਅਸਲੀ ਰਾਜ਼

ਇਹ AI ਉਦਯੋਗ ਲਈ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ

ਮੁੱਖ ਗੱਲਾਂ (Key Takeaways)

Continue reading

ਨਵਾਂ AA Briefcase ਬੈਂਚਮਾਰਕ ਅਸਲ ਗਿਆਨ-ਅਧਾਰਤ ਕੰਮ ਵਿੱਚ AI ਦੇ ਸੰਘਰਸ਼ ਦਾ ਖੁਲਾਸਾ ਕਰਦਾ ਹੈ

How Vibecoding is Revolutionizing Software M&A Due Diligence

Qwen3 ਬਨਾਮ DeepSeek R1: 2026 ਵਿੱਚ ਕਿਹੜਾ ਮਾਡਲ ਜਿੱਤੇਗਾ?