Sina-യുടെ VibeThinker-3B: അറിവിനേക്കാൾ മികച്ച രീതിയിൽ യുക്തിചിന്തയെ (Reasoning) ചുരുക്കാൻ കഴിയുമെന്ന് തെളിയിക്കുന്നു

സങ്കീർണ്ണമായ യുക്തിചിന്താപരമായ (reasoning) ജോലികളിൽ വലിയ മോഡലുകളോട് കിടപിടിക്കുന്നതിലൂടെ പരമ്പരാഗത സ്കെയിലിംഗ് നിയമങ്ങളെ (scaling laws) വെല്ലുവിളിക്കുന്ന ഒരു ചെറിയ ലാംഗ്വേജ് മോഡലായ VibeThinker-3B Sina പുറത്തിറക്കി. വസ്തുതാപരമായ അറിവ് (factual breadth) മോഡലിന്റെ വലുപ്പവുമായി ബന്ധപ്പെട്ടിരിക്കുന്നുവെങ്കിലും, യുക്തിപരമായ ബുദ്ധി (logical intelligence) വളരെ ചെറിയ പാരാമീറ്റർ പരിധിക്കുള്ളിൽ ഒതുക്കാൻ കഴിയുമെന്ന് ഈ മുന്നേറ്റം സൂചിപ്പിക്കുന്നു.

സ്കെയിലിംഗ് നിയമങ്ങളെ വെല്ലുവിളിക്കുന്നു: ഗണിതത്തിലും കോഡിംഗിലുമുള്ള മികവ്

VibeThinker-3B-യുടെ സാങ്കേതിക ഫലങ്ങൾ അതിശയിപ്പിക്കുന്നതാണ്. വെറും മൂന്ന് ബില്യൺ പാരാമീറ്ററുകൾ മാത്രം ഉണ്ടായിരുന്നിട്ടും, AIME26 ബെഞ്ച്മാർക്കിൽ DeepSeek V3.2, Kimi K2.5 തുടങ്ങിയ വമ്പൻ മോഡലുകളോട് കിടപിടിക്കാൻ ഇതിന് സാധിക്കുന്നു. ഈ വമ്പൻ മോഡലുകൾക്ക് VibeThinker-3B-യേക്കാൾ 200 മുതൽ 333 ഇരട്ടി വരെ കൂടുതൽ പാരാമീറ്ററുകൾ ഉണ്ട്.

LiveCodeBench-ൽ, 20 ബില്യൺ പാരാമീറ്റർ പരിധിയിൽ താഴെയുള്ള മറ്റെല്ലാ മോഡലുകളെക്കാളും മികച്ച പ്രകടനം VibeThinker-3B കാഴ്ചവെക്കുന്നു. ഈ ഫലങ്ങൾ ഡാറ്റാ കോൺടാമിനേഷൻ (data contamination) മൂലമുണ്ടായതല്ലെന്ന് ഉറപ്പാക്കാൻ, പരിശീലനം പൂർത്തിയായി ഏറെക്കാലത്തിന് ശേഷം, അതായത് 2026 പകുതിയോടെ നടന്ന LeetCode മത്സരങ്ങളിൽ ഗവേഷകർ ഈ മോഡലിനെ പരീക്ഷിച്ചു. ഈ പരീക്ഷണങ്ങളിൽ, 128 പ്രശ്നങ്ങളിൽ 123 എണ്ണവും ആദ്യ ശ്രമത്തിൽ തന്നെ പരിഹരിക്കാൻ 3B മോഡലിന് കഴിഞ്ഞു. ഇത് GPT-5.2, Qwen3-Max തുടങ്ങിയ കരുത്തുറ്റ മോഡലുകളെക്കാൾ മുന്നിലെത്താൻ ഇതിനെ സഹായിച്ചു.

പാരാമെട്രിക് കംപ്രഷൻ-കവറേജ് ഹൈപ്പോത്തിസിസ് (Parametric Compression-Coverage Hypothesis)

ഈ ഗവേഷണത്തിന്റെ ഏറ്റവും പ്രധാനപ്പെട്ട സംഭാവന "Parametric Compression-Coverage Hypothesis" അവതരിപ്പിച്ചു എന്നതാണ്. വ്യത്യസ്തമായ AI ശേഷികൾ വ്യത്യസ്ത രീതിയിലാണ് സ്കെയിൽ ചെയ്യപ്പെടുന്നത് എന്ന് Sina-യിലെ ഗവേഷകർ വാദിക്കുന്നു.

ഘട്ടം ഘട്ടമായുള്ള പ്രശ്നപരിഹാരം, പിശക് തിരുത്തൽ, പാറ്റേൺ മാച്ചിംഗ് എന്നിവയിലൂടെ അടയാളപ്പെടുത്തപ്പെടുന്ന ലോജിക്കൽ റീസണിംഗ് (Logical reasoning), ആവർത്തിച്ചു വരുന്ന പരിമിതമായ ഘടനകളെയാണ് ആശ്രയിക്കുന്നത്. ഇത് "റീസണിംഗിനെ" ഒരു ചെറിയ മോഡൽ കോറിലേക്ക് ഉയർന്ന രീതിയിൽ കംപ്രസ് ചെയ്യാൻ അനുവദിക്കുന്നു. നേരെമറിച്ച്, വസ്തുതാപരമായ അറിവിന് (factual knowledge) വിപുലമായ "കവറേജ്" ആവശ്യമാണ്. വിവിധ മേഖലകളിലെ തുറന്ന ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകാൻ, ലോകത്തിലെ വസ്തുതകൾ സംഭരിക്കാനുള്ള ഒരു പാത്രമായി പ്രവർത്തിക്കാൻ മോഡലിന് വലിയൊരു അളവ് പാരാമീറ്ററുകൾ ആവശ്യമാണ്. VibeThinker-3B-യുടെ പ്രകടനത്തിലെ വ്യത്യാസം ഇതിന് തെളിവാണ്: ഇത് ഗണിതത്തിലും കോഡിംഗിലും മികവ് പുലർത്തുന്നുണ്ടെങ്കിലും, അറിവ് അടിസ്ഥാനമാക്കിയുള്ള GPQA-Diamond ബെഞ്ച്മാർക്കിൽ വലിയ മോഡലുകളെ അപേക്ഷിച്ച് പിന്നിലാവുന്നു.

പ്രിസിഷൻ പോസ്റ്റ്-ട്രെയിനിംഗ്: വിജയരഹസ്യം

Alibaba-യുടെ Qwen2.5-Coder-3B അടിസ്ഥാനമാക്കിയാണ് VibeThinker-3B നിർമ്മിച്ചിരിക്കുന്നത്, എന്നാൽ ഇതിന്റെ മികച്ച പ്രകടനത്തിന് കാരണം Sina-യുടെ അത്യാധുനികമായ പോസ്റ്റ്-ട്രെയിനിംഗ് പൈപ്പ്‌ലൈൻ ആണ്. വെറും വലുപ്പത്തിന് പകരം, ഡാറ്റയുടെ ഗുണനിലവാരത്തിലും (data quality) വിവിധ ഘട്ടങ്ങളിലൂടെയുള്ള വാലിഡേഷൻ സിഗ്നലുകളിലും (validation signals) ആണ് ടീം ശ്രദ്ധ കേന്ദ്രീകരിച്ചത്:

  • രണ്ട് ഘട്ടങ്ങളിലുള്ള സൂപ്പർവൈസ്ഡ് ഫൈൻ-ട്യൂണിംഗ് (SFT): ഗണിതം, കോഡിംഗ്, പൊതുവായ സംഭാഷണങ്ങൾ എന്നിവയുൾപ്പെടെയുള്ള വിപുലമായ മേഖലകളിൽ പരിശീലനം നൽകുന്നു.
  • മൾട്ടി-സ്റ്റേജ് റൈൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ് (RL): വിജയകരമായ പരിഹാര പാതകൾ ശക്തിപ്പെടുത്തുന്നതിനായി ഗണിതം, പ്രോഗ്രാമിംഗ്, STEM എന്നിവയ്ക്കായി പ്രത്യേകം രൂപകൽപ്പന ചെയ്തത്.
  • സെൽഫ്-ഡിസ്റ്റിലേഷൻ (Self-Distillation): വിവിധ റീസണിംഗ് ഘട്ടങ്ങളിൽ നിന്നുള്ള കഴിവുകളെ ഒരൊറ്റ കാര്യക്ഷമമായ മോഡലിലേക്ക് സംയോജിപ്പിക്കുന്നു.
  • ഇൻസ്ട്രക്ഷൻ ട്യൂണിംഗ് (Instruction Tuning): ഉപയോക്താവിന്റെ നിർദ്ദേശങ്ങൾ കൃത്യമായി പാലിക്കുന്നുണ്ടെന്ന് ഉറപ്പാക്കുന്ന അവസാന ഘട്ടം.

എന്തുകൊണ്ടാണ് ഇത് AI വ്യവസായത്തിന് പ്രധാനമാകുന്നത്?

ഈ വികാസം ഡെവലപ്പർമാർ "ചെറിയ" മോഡലുകളെ കാണുന്ന രീതിയിലുള്ള മാറ്റത്തെ സൂചിപ്പിക്കുന്നു. അവ ഇനി ലളിതമായ ജോലികൾക്കായുള്ള ഭാരം കുറഞ്ഞതും കുറഞ്ഞ ചിലവുള്ളതുമായ ബദലുകൾ മാത്രമല്ല; മറിച്ച്, പരിശോധിക്കാവുന്നതും യുക്തിധിഷ്ഠിതവുമായ (logic-driven) പ്രവർത്തനങ്ങൾക്കായി പ്രത്യേകമായി രൂപകൽപ്പന ചെയ്ത കരുത്തുറ്റ സംവിധാനങ്ങളായി മാറുകയാണ്. വ്യവസായം 'ഏജൻറ്റിക് AI' (agentic AI) -അഥവാ മോഡലുകൾക്ക് പല ഘട്ടങ്ങളിലൂടെ യുക്തിപരമായി ചിന്തിക്കേണ്ടി വരുന്ന രീതിയിലേക്ക് മാറിക്കൊണ്ടിരിക്കുമ്പോൾ, ഉയർന്ന തലത്തിലുള്ള യുക്തി ഒരു 3B പാരാമീറ്റർ മോഡലിൽ ഉൾക്കൊള്ളാനുള്ള കഴിവ്, വലിയ ഡാറ്റാ സെന്ററുകൾ ഇല്ലാതെ തന്നെ പ്രവർത്തിപ്പിക്കാൻ കഴിയുന്ന കാര്യക്ഷമവും പ്രാദേശികവും സവിശേഷവുമായ ബുദ്ധിശക്തിയിലേക്കുള്ള പാത തുറക്കുന്നു.

പ്രധാന കാര്യങ്ങൾ

  • യുക്തിചിന്ത കംപ്രസ് ചെയ്യാൻ സാധിക്കും: സങ്കീർണ്ണമായ ഗണിതശാസ്ത്രപരവും കോഡിംഗ് യുക്തിപരവുമായ കാര്യങ്ങൾ നൂറിരട്ടി വലുപ്പമുള്ള മോഡലുകളോട് കിടപിടിക്കുന്ന രീതിയിൽ ഒരു 3B മോഡലിൽ ഉൾക്കൊള്ളാൻ കഴിയുമെന്ന് VibeThinker-3B തെളിയിക്കുന്നു.
  • അറിവിന് സ്കെയിൽ ആവശ്യമാണ്: യുക്തിചിന്ത കാര്യക്ഷമമായി സ്കെയിൽ ചെയ്യപ്പെടുമെങ്കിലും, പൊതുവായ അറിവ് പരിശോധിക്കുന്ന ബെഞ്ച്മാർക്കുകളിൽ പ്രകടനം കുറയാതിരിക്കാൻ വസ്തുതാപരമായ "കവറേജ്" ഇപ്പോഴും ഉയർന്ന പാരാമീറ്റർ എണ്ണം ആവശ്യപ്പെടുന്നു.
  • പോസ്റ്റ്-ട്രെയിനിംഗ് ആണ് പ്രധാനം: മോഡലിന്റെ വിജയം അതിന്റെ പ്രീ-ട്രെയിനിംഗ് സ്കെയിലിലല്ല, മറിച്ച് പ്രത്യേകമായ മൾട്ടി-സ്റ്റേജ് റൈൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗിലും സെൽഫ്-ഡിസ്റ്റിലേഷനിലുമാണ് അടങ്ങിയിരിക്കുന്നത്.