Sina's VibeThinker 3B Proves Reasoning Compresses Better Than Knowledge

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial6 દિવસ પહેલાં3min read

Sina's VibeThinker 3B Proves Reasoning Compresses Better Than Knowledge

In this article

Sina નું VibeThinker-3B સાબિત કરે છે કે તર્ક (Reasoning) જ્ઞાન કરતા વધુ સારી રીતે સંકુચિત (Compress) થઈ શકે છે

Sina એ VibeThinker-3B રિલીઝ કર્યું છે, જે એક નાનું લેંગ્વેજ મોડેલ છે જે જટિલ તર્કકારક કાર્યોમાં વિશાળ મોડેલોની સમકક્ષ રહીને પરંપરાગત સ્કેલિંગ નિયમોને પડકારે છે. આ સફળતા સૂચવે છે કે તાર્કિક બુદ્ધિને ખૂબ જ નાના પેરામીટર ફૂટપ્રિન્ટમાં સંકુચિત કરી શકાય છે, ભલે તથ્યાત્મક વ્યાપ (factual breadth) મોડેલના કદ સાથે જોડાયેલો રહે.

સ્કેલિંગ નિયમોને પડકારતા: ગણિત અને કોડિંગમાં શ્રેષ્ઠતા

VibeThinker-3B ના ટેકનિકલ પરિણામો આશ્ચર્યજનક છે. માત્ર ત્રણ અબજ પેરામીટર્સ હોવા છતાં, આ મોડેલ AIME26 બેન્ચમાર્ક પર DeepSeek V3.2 અને Kimi K2.5 જેવા દિગ્ગજ મોડેલોની સમકક્ષ પ્રદર્શન કરે છે—જે મોડેલો પાસે તેના કરતા 200 થી 333 ગણા વધુ પેરામીટર્સ છે.

LiveCodeBench પર, VibeThinker-3B 20 બિલિયન પેરામીટરની મર્યાદા હેઠળના અન્ય તમામ મોડેલો કરતા વધુ સારું પ્રદર્શન કરે છે. આ પરિણામો માત્ર ડેટા કન્ટેમિનેશનનું પરિણામ નથી તેની ખાતરી કરવા માટે, સંશોધકોએ મોડેલનું તાલીમ પૂર્ણ થયા પછી, મધ્ય-2026 માં યોજાયેલી LeetCode સ્પર્ધાઓ પર પરીક્ષણ કર્યું હતું. આ પરીક્ષણોમાં, 3B મોડેલે પ્રથમ પ્રયાસમાં 128 માંથી 123 સમસ્યાઓ ઉકેલી હતી, જે તેને GPT-5.2 અને Qwen3-Max જેવા ભારે પ્રતિસ્પર્ધીઓથી આગળ રાખે છે.

પેરામેટ્રિક કમ્પ્રેશન-કવરેજ હાયપોથેસિસ (Parametric Compression-Coverage Hypothesis)

આ સંશોધનનું સૌથી મહત્વપૂર્ણ યોગદાન "Parametric Compression-Coverage Hypothesis" નો પરિચય છે. Sina ના સંશોધકો દલીલ કરે છે કે વિવિધ AI ક્ષમતાઓ અલગ-અલગ રીતે સ્કેલ થાય છે.

તાર્કિક તર્ક (Logical reasoning)—જે સ્ટેપ-બાય-સ્ટેપ સમસ્યાનું નિરાકરણ, ભૂલ સુધારણા અને પેટર્ન મેચિંગ દ્વારા લાક્ષણિકતા ધરાવે છે—તે પુનરાવર્તિત માળખાઓના મર્યાદિત સેટ પર આધાર રાખે છે. આનાથી "reasoning" ને કોમ્પેક્ટ મોડેલ કોરમાં ઉચ્ચ સ્તરે સંકુચિત કરી શકાય છે. તેનાથી વિપરીત, તથ્યાત્મક જ્ઞાન માટે વ્યાપક "કવરેજ" ની જરૂર હોય છે. વિવિધ ક્ષેત્રોના ખુલ્લા પ્રશ્નોના જવાબ આપવા માટે, મોડેલને વિશ્વના તથ્યો માટે સ્ટોરેજ વેસલ તરીકે કામ કરવા માટે વિશાળ સંખ્યામાં પેરામીટર્સની જરૂર પડે છે. આ VibeThinker-3B ના પ્રદર્શનના તફાવત દ્વારા સાબિત થાય છે: જ્યારે તે ચકાસી શકાય તેવા ગણિત અને કોડમાં શ્રેષ્ઠ છે, ત્યારે તે જ્ઞાન-ભર્યા GPQA-Diamond બેન્ચમાર્ક પર મોટા મોડેલોથી નોંધપાત્ર રીતે પાછળ રહી જાય છે.

પ્રિસિઝન પોસ્ટ-ટ્રેનિંગ: સિક્રેટ સોસ (The Secret Sauce)

VibeThinker-3B Alibaba ના Qwen2.5-Coder-3B પર આધારિત છે, પરંતુ પ્રદર્શનમાં આવેલો આ મોટો ઉછાળો Sina ના અત્યાધુનિક પોસ્ટ-ટ્રેનિંગ પાઇપલાઇનને આભારી છે. ટીમ માત્ર સ્કેલ પર ધ્યાન આપવાને બદલે, કેટલાક સઘન તબક્કાઓ દ્વારા ડેટાની ગુણવત્તા અને વેલિડેશન સિગ્નલ્સ પર ધ્યાન કેન્દ્રિત કરી:

Two-Stage Supervised Fine-Tuning (SFT): ગણિત, કોડિંગ અને સામાન્ય સંવાદના કાર્યોની વિશાળ શ્રેણી પર તાલીમ.
Multi-Stage Reinforcement Learning (RL): સફળ સોલ્યુશન પાથને મજબૂત કરવા માટે ખાસ કરીને ગણિત, પ્રોગ્રામિંગ અને STEM માટે તૈયાર કરવામાં આવ્યું છે.
Self-Distillation: વિવિધ રીઝનિંગ ફેઝમાંથી કૌશલ્યોને એક સિંગલ, કાર્યક્ષમ મોડેલમાં એકત્રિત કરવું.
Instruction Tuning: યુઝર પ્રોમ્પ્ટ્સનું સખત પાલન સુનિશ્ચિત કરવા માટેનો અંતિમ તબક્કો.

AI ઉદ્યોગ માટે આ શા માટે મહત્વનું છે

આ વિકાસ ડેવલપર્સ "નાના" મોડેલોને કેવી રીતે જુએ છે તેમાં પરિવર્તન સૂચવે છે. તેઓ હવે માત્ર સાદા કાર્યો માટે હળવા અને ઓછા ખર્ચના વિકલ્પો નથી; તેઓ ચકાસી શકાય તેવા, લોજિક-ડ્રિવન વર્કફ્લો માટે વિશિષ્ટ પાવરહાઉસ બની રહ્યા છે. જેમ જેમ ઉદ્યોગ એજન્ટિક AI (agentic AI) તરફ આગળ વધી રહ્યો છે—જ્યાં મોડેલોએ મલ્ટી-સ્ટેપ પ્રક્રિયાઓ દ્વારા તર્ક કરવો પડે છે—તેમ 3B પેરામીટર મોડેલમાં ઉચ્ચ સ્તરીય લોજિકને પેક કરવાની ક્ષમતા અત્યંત કાર્યક્ષમ, લોકલ અને વિશિષ્ટ બુદ્ધિ તરફનો માર્ગ પ્રદાન કરે છે જેને કાર્ય કરવા માટે વિશાળ ડેટા સેન્ટરોની જરૂર નથી.

મુખ્ય મુદ્દાઓ (Key Takeaways)

Reasoning is Compressible: VibeThinker-3B સાબિત કરે છે કે જટિલ ગાણિતિક અને કોડિંગ લોજિકને 3B મોડેલમાં પેક કરી શકાય છે, જે સેંકડો ગણા મોટા મોડેલોને ટક્કર આપી શકે છે.
Knowledge Requires Scale: જ્યારે રીઝનિંગ કાર્યક્ષમ રીતે સ્કેલ થાય છે, ત્યારે સામાન્ય જ્ઞાનના બેન્ચમાર્ક પર પ્રદર્શનમાં ઘટાડો રોકવા માટે તથ્યાત્મક "કવરેજ" માટે હજુ પણ ઉચ્ચ પેરામીટર સંખ્યાની જરૂર હોય છે.
Post-Training is King: મોડેલની સફળતા કાચા પ્રી-ટ્રેનિંગ સ્કેલને બદલે વિશિષ્ટ મલ્ટી-સ્ટેજ Reinforcement Learning અને સેલ્ફ-ડિસ્ટિલેશન દ્વારા સંચાલિત છે.

Sina's VibeThinker 3B Proves Reasoning Compresses Better Than Knowledge

Sina નું VibeThinker-3B સાબિત કરે છે કે તર્ક (Reasoning) જ્ઞાન કરતા વધુ સારી રીતે સંકુચિત (Compress) થઈ શકે છે

સ્કેલિંગ નિયમોને પડકારતા: ગણિત અને કોડિંગમાં શ્રેષ્ઠતા

પેરામેટ્રિક કમ્પ્રેશન-કવરેજ હાયપોથેસિસ (Parametric Compression-Coverage Hypothesis)

પ્રિસિઝન પોસ્ટ-ટ્રેનિંગ: સિક્રેટ સોસ (The Secret Sauce)

AI ઉદ્યોગ માટે આ શા માટે મહત્વનું છે

મુખ્ય મુદ્દાઓ (Key Takeaways)

Continue reading

નવું AA બ્રીફકેસ બેન્ચમાર્ક વાસ્તવિક જ્ઞાનલક્ષી કાર્યમાં AI ના સંઘર્ષને દર્શાવે છે

GPT તમે વિચારતા હોવ તેના કરતાં પણ વધુ કરી શકે છે

How Vibecoding is Revolutionizing Software M&A Due Diligence

Qwen3 વિરુદ્ધ DeepSeek R1: 2026 માં કયું મોડેલ જીતશે?