Sina નું VibeThinker-3B સાબિત કરે છે કે તર્ક (Reasoning) જ્ઞાન કરતા વધુ સારી રીતે સંકુચિત (Compress) થઈ શકે છે

Sina એ VibeThinker-3B રિલીઝ કર્યું છે, જે એક નાનું લેંગ્વેજ મોડેલ છે જે જટિલ તર્કકારક કાર્યોમાં વિશાળ મોડેલોની સમકક્ષ રહીને પરંપરાગત સ્કેલિંગ નિયમોને પડકારે છે. આ સફળતા સૂચવે છે કે તાર્કિક બુદ્ધિને ખૂબ જ નાના પેરામીટર ફૂટપ્રિન્ટમાં સંકુચિત કરી શકાય છે, ભલે તથ્યાત્મક વ્યાપ (factual breadth) મોડેલના કદ સાથે જોડાયેલો રહે.

સ્કેલિંગ નિયમોને પડકારતા: ગણિત અને કોડિંગમાં શ્રેષ્ઠતા

VibeThinker-3B ના ટેકનિકલ પરિણામો આશ્ચર્યજનક છે. માત્ર ત્રણ અબજ પેરામીટર્સ હોવા છતાં, આ મોડેલ AIME26 બેન્ચમાર્ક પર DeepSeek V3.2 અને Kimi K2.5 જેવા દિગ્ગજ મોડેલોની સમકક્ષ પ્રદર્શન કરે છે—જે મોડેલો પાસે તેના કરતા 200 થી 333 ગણા વધુ પેરામીટર્સ છે.

LiveCodeBench પર, VibeThinker-3B 20 બિલિયન પેરામીટરની મર્યાદા હેઠળના અન્ય તમામ મોડેલો કરતા વધુ સારું પ્રદર્શન કરે છે. આ પરિણામો માત્ર ડેટા કન્ટેમિનેશનનું પરિણામ નથી તેની ખાતરી કરવા માટે, સંશોધકોએ મોડેલનું તાલીમ પૂર્ણ થયા પછી, મધ્ય-2026 માં યોજાયેલી LeetCode સ્પર્ધાઓ પર પરીક્ષણ કર્યું હતું. આ પરીક્ષણોમાં, 3B મોડેલે પ્રથમ પ્રયાસમાં 128 માંથી 123 સમસ્યાઓ ઉકેલી હતી, જે તેને GPT-5.2 અને Qwen3-Max જેવા ભારે પ્રતિસ્પર્ધીઓથી આગળ રાખે છે.

પેરામેટ્રિક કમ્પ્રેશન-કવરેજ હાયપોથેસિસ (Parametric Compression-Coverage Hypothesis)

આ સંશોધનનું સૌથી મહત્વપૂર્ણ યોગદાન "Parametric Compression-Coverage Hypothesis" નો પરિચય છે. Sina ના સંશોધકો દલીલ કરે છે કે વિવિધ AI ક્ષમતાઓ અલગ-અલગ રીતે સ્કેલ થાય છે.

તાર્કિક તર્ક (Logical reasoning)—જે સ્ટેપ-બાય-સ્ટેપ સમસ્યાનું નિરાકરણ, ભૂલ સુધારણા અને પેટર્ન મેચિંગ દ્વારા લાક્ષણિકતા ધરાવે છે—તે પુનરાવર્તિત માળખાઓના મર્યાદિત સેટ પર આધાર રાખે છે. આનાથી "reasoning" ને કોમ્પેક્ટ મોડેલ કોરમાં ઉચ્ચ સ્તરે સંકુચિત કરી શકાય છે. તેનાથી વિપરીત, તથ્યાત્મક જ્ઞાન માટે વ્યાપક "કવરેજ" ની જરૂર હોય છે. વિવિધ ક્ષેત્રોના ખુલ્લા પ્રશ્નોના જવાબ આપવા માટે, મોડેલને વિશ્વના તથ્યો માટે સ્ટોરેજ વેસલ તરીકે કામ કરવા માટે વિશાળ સંખ્યામાં પેરામીટર્સની જરૂર પડે છે. આ VibeThinker-3B ના પ્રદર્શનના તફાવત દ્વારા સાબિત થાય છે: જ્યારે તે ચકાસી શકાય તેવા ગણિત અને કોડમાં શ્રેષ્ઠ છે, ત્યારે તે જ્ઞાન-ભર્યા GPQA-Diamond બેન્ચમાર્ક પર મોટા મોડેલોથી નોંધપાત્ર રીતે પાછળ રહી જાય છે.

પ્રિસિઝન પોસ્ટ-ટ્રેનિંગ: સિક્રેટ સોસ (The Secret Sauce)

VibeThinker-3B Alibaba ના Qwen2.5-Coder-3B પર આધારિત છે, પરંતુ પ્રદર્શનમાં આવેલો આ મોટો ઉછાળો Sina ના અત્યાધુનિક પોસ્ટ-ટ્રેનિંગ પાઇપલાઇનને આભારી છે. ટીમ માત્ર સ્કેલ પર ધ્યાન આપવાને બદલે, કેટલાક સઘન તબક્કાઓ દ્વારા ડેટાની ગુણવત્તા અને વેલિડેશન સિગ્નલ્સ પર ધ્યાન કેન્દ્રિત કરી:

  • Two-Stage Supervised Fine-Tuning (SFT): ગણિત, કોડિંગ અને સામાન્ય સંવાદના કાર્યોની વિશાળ શ્રેણી પર તાલીમ.
  • Multi-Stage Reinforcement Learning (RL): સફળ સોલ્યુશન પાથને મજબૂત કરવા માટે ખાસ કરીને ગણિત, પ્રોગ્રામિંગ અને STEM માટે તૈયાર કરવામાં આવ્યું છે.
  • Self-Distillation: વિવિધ રીઝનિંગ ફેઝમાંથી કૌશલ્યોને એક સિંગલ, કાર્યક્ષમ મોડેલમાં એકત્રિત કરવું.
  • Instruction Tuning: યુઝર પ્રોમ્પ્ટ્સનું સખત પાલન સુનિશ્ચિત કરવા માટેનો અંતિમ તબક્કો.

AI ઉદ્યોગ માટે આ શા માટે મહત્વનું છે

આ વિકાસ ડેવલપર્સ "નાના" મોડેલોને કેવી રીતે જુએ છે તેમાં પરિવર્તન સૂચવે છે. તેઓ હવે માત્ર સાદા કાર્યો માટે હળવા અને ઓછા ખર્ચના વિકલ્પો નથી; તેઓ ચકાસી શકાય તેવા, લોજિક-ડ્રિવન વર્કફ્લો માટે વિશિષ્ટ પાવરહાઉસ બની રહ્યા છે. જેમ જેમ ઉદ્યોગ એજન્ટિક AI (agentic AI) તરફ આગળ વધી રહ્યો છે—જ્યાં મોડેલોએ મલ્ટી-સ્ટેપ પ્રક્રિયાઓ દ્વારા તર્ક કરવો પડે છે—તેમ 3B પેરામીટર મોડેલમાં ઉચ્ચ સ્તરીય લોજિકને પેક કરવાની ક્ષમતા અત્યંત કાર્યક્ષમ, લોકલ અને વિશિષ્ટ બુદ્ધિ તરફનો માર્ગ પ્રદાન કરે છે જેને કાર્ય કરવા માટે વિશાળ ડેટા સેન્ટરોની જરૂર નથી.

મુખ્ય મુદ્દાઓ (Key Takeaways)

  • Reasoning is Compressible: VibeThinker-3B સાબિત કરે છે કે જટિલ ગાણિતિક અને કોડિંગ લોજિકને 3B મોડેલમાં પેક કરી શકાય છે, જે સેંકડો ગણા મોટા મોડેલોને ટક્કર આપી શકે છે.
  • Knowledge Requires Scale: જ્યારે રીઝનિંગ કાર્યક્ષમ રીતે સ્કેલ થાય છે, ત્યારે સામાન્ય જ્ઞાનના બેન્ચમાર્ક પર પ્રદર્શનમાં ઘટાડો રોકવા માટે તથ્યાત્મક "કવરેજ" માટે હજુ પણ ઉચ્ચ પેરામીટર સંખ્યાની જરૂર હોય છે.
  • Post-Training is King: મોડેલની સફળતા કાચા પ્રી-ટ્રેનિંગ સ્કેલને બદલે વિશિષ્ટ મલ્ટી-સ્ટેજ Reinforcement Learning અને સેલ્ફ-ડિસ્ટિલેશન દ્વારા સંચાલિત છે.