VibeThinker-3B ya Sina Inathibitisha kuwa Uwezo wa Kufikiri Unafinyangwa Vizuri Zaidi Kuliko Maarifa

Sina imetoa VibeThinker-3B, modeli ndogo ya lugha inayopinga sheria za kawaida za upanuzi (scaling laws) kwa kulingana na modeli kubwa katika kazi tata za kufikiri. Hatua hii kubwa inadokeza kuwa akili ya kimantiki inaweza kufinyangwa katika idadi ndogo sana ya vigezo (parameters), hata kama upana wa ukweli unabaki kuambatana na ukubwa wa modeli.

Kupinga Sheria za Upanuzi: Ubora katika Hisabati na Uandishi wa Kanuni (Coding)

Matokeo ya kiufundi ya VibeThinker-3B ni ya kushangaza. Licha ya kuwa na vigezo bilioni tatu pekee, modeli hii inafanya kazi sawa na majitu kama DeepSeek V3.2 na Kimi K2.5 kwenye kipimo cha AIME26—modeli ambazo zina vigezo vingi zaidi mara 200 hadi 333.

Kwenye LiveCodeBench, VibeThinker-3B inafanya vizuri kuliko modeli nyingine yoyote iliyo chini ya kiwango cha vigezo bilioni 20. Ili kuhakikisha kuwa matokeo haya hayakuwa matokeo tu ya uchafuzi wa data (data contamination), watafiti walijaribu modeli hiyo kwenye mashindano ya LeetCode yaliyofanyika katikati ya mwaka 2026, muda mrefu baada ya mafunzo yake kukamilika. Katika majaribio haya, modeli ya 3B ilitatua matatizo 123 kati ya 128 kwa jaribio la kwanza, na kuifanya iwe mbele ya washindani wajikuu kama GPT-5.2 na Qwen3-Max.

Nadharia ya "Parametric Compression-Coverage Hypothesis"

Mchango mkubwa zaidi wa utafiti huu ni utangulizi wa "Parametric Compression-Coverage Hypothesis." Watafiti wa Sina wanahoji kuwa uwezo tofauti wa AI unapanuka kwa njia tofauti.

Uwezo wa kufikiri kimantiki—unaojulikana kwa utatuzi wa matatizo hatua kwa hatua, marekebisho ya makosa, na utambuzi wa mifumo—unategemea seti ndogo ya miundo inayojirudia. Hii inaruhusu "uwezo wa kufikiri" kufinyangwa kwa ufanisi mkubwa katika kiini kidogo cha modeli. Kinyume chake, maarifa ya ukweli yanahitaji "ufuniko" (coverage) mpana. Ili kujibu maswali ya wazi katika nyanja mbalimbali, modeli inahitaji idadi kubwa ya vigezo ili kufanya kazi kama chombo cha kuhifadhia ukweli wa ulimwengu. Hii inathibitishwa na pengo la utendaji la VibeThinker-3B: wakati inafanya vizuri katika hisabati na kanuni zinazoweza kuthibitishwa, inabaki nyuma sana ya modeli kubwa kwenye kipimo cha GPQA-Diamond kinachohitaji maarifa mengi.

Usahihi wa Post-Training: Siri ya Mafanikio

VibeThinker-3B imejengwa juu ya Qwen2.5-Coder-3B ya Alibaba, lakini ongezeko kubwa la utendaji linasababishwa na mfumo wa kisasa wa post-training wa Sina. Timu hiyo iliondoa mkazo kwenye ukubwa wa hali ya juu, badala yake ikazingatia ubora wa data na ishara za uhakiki kupitia hatua kadhaa intensive:

  • Supervised Fine-Tuning (SFT) ya Hatua Mbili: Mafunzo kwenye aina mbalimbali za hisabati, uandishi wa kanuni, na kazi za mazungumzo ya jumla.
  • Reinforcement Learning (RL) ya Hatua Nyingi: Imeundwa mahususi kwa ajili ya hisabati, programu, na STEM ili kuimarisha njia za utatuzi zenye mafanikio.
  • Self-Distillation: Kuunganisha ujuzi kutoka katika awamu tofauti za kufikiri kuwa modeli moja yenye ufanisi.
  • Instruction Tuning: Awamu ya mwisho ya kuhakikisha uzingatiaji mkali wa maelekezo ya mtumiaji.

Kwa Nini Hii Ni Muhimu kwa Sekta ya AI

Maendeleo haya yanaashiria mabadiliko katika jinsi watengenezaji wanavyozitazama modeli "ndogo". Hazionekani tena kama mbadala mwepesi na wa gharama nafuu kwa kazi rahisi tu; zinakuwa nguvu kubwa maalum kwa michakato inayoweza kuthibitishwa na inayoendeshwa na mantiki. Wakati sekta inasogea kuelekea AI ya mawakala (agentic AI)—ambapo modeli lazima zifikirie kupitia michakato ya hatua nyingi—uwezo wa kuweka mantiki ya kiwango cha juu katika modeli ya vigezo 3B unatoa njia kuelekea akili yenye ufanisi mkubwa, ya ndani, na maalum ambayo haihitaji vituo vikubwa vya data ili kufanya kazi.

Mambo Muhimu ya Kuzingatia

  • Uwezo wa Kufikiri Unaweza Kufinyangwa: VibeThinker-3B inathibitisha kuwa mantiki tata ya hisabati na uandishi wa kanuni inaweza kufinyangwa katika modeli ya 3B, ikishindana na modeli kubwa mara mamia zaidi.
  • Maarifa Yanahitaji Ukubwa: Wakati uwezo wa kufikiri unapanuka kwa ufanisi, "ufuniko" wa ukweli bado unahitaji idadi kubwa ya vigezo ili kuzuia kushuka kwa utendaji katika vipimo vya maarifa ya jumla.
  • Post-Training ndiyo Muhimu: Mafanikio ya modeli yanachochewa na Reinforcement Learning maalum ya hatua nyingi na self-distillation badala ya ukubwa wa mafunzo ya awali (pre-training) pekee.