Sina ನ VibeThinker-3B: ಜ್ಞಾನಕ್ಕಿಂತ ತಾರ್ಕಿಕತೆ (Reasoning) ಉತ್ತಮವಾಗಿ ಸಂಕುಚಿತಗೊಳ್ಳುತ್ತದೆ ಎಂದು ಸಾಬೀತುಪಡಿಸಿದೆ
Sina ಸಂಸ್ಥೆಯು VibeThinker-3B ಅನ್ನು ಬಿಡುಗಡೆ ಮಾಡಿದೆ. ಇದು ಸಂಕೀರ್ಣ ತಾರ್ಕಿಕ ಕಾರ್ಯಗಳಲ್ಲಿ (reasoning tasks) ಬೃಹತ್ ಮಾದರಿಗಳಿಗೆ ಸಮಾನವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಮೂಲಕ ಸಾಂಪ್ರದಾಯಿಕ ಸ್ಕೇಲಿಂಗ್ ನಿಯಮಗಳನ್ನು (scaling laws) ಮೀರಿಸುವ ಒಂದು ಸಣ್ಣ ಭಾಷಾ ಮಾದರಿಯಾಗಿದೆ. ಈ ಮಹತ್ವದ ಬೆಳವಣಿಗೆಯು ತಾರ್ಕಿಕ ಬುದ್ಧಿವಂತಿಕೆಯನ್ನು ಅತ್ಯಲ್ಪ ಪ್ಯಾರಾಮೀಟರ್ಗಳಲ್ಲಿ ಸಂಕುಚಿತಗೊಳಿಸಬಹುದು ಎಂದು ಸೂಚಿಸುತ್ತದೆ, ಆದರೆ ವಾಸ್ತವಿಕ ಜ್ಞಾನದ ವ್ಯಾಪ್ತಿಯು ಮಾದರಿಯ ಗಾತ್ರಕ್ಕೆ ಅನುಗುಣವಾಗಿ ಇರುತ್ತದೆ.
ಸ್ಕೇಲಿಂಗ್ ನಿಯಮಗಳನ್ನು ಮೀರಿಸುವುದು: ಗಣಿತ ಮತ್ತು ಕೋಡಿಂಗ್ನಲ್ಲಿ ಶ್ರೇಷ್ಠತೆ
VibeThinker-3B ನ ತಾಂತ್ರಿಕ ಫಲಿತಾಂಶಗಳು ಬೆರಗುಗೊಳಿಸುವಂತಿವೆ. ಕೇವಲ ಮೂರು ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್ಗಳನ್ನು ಹೊಂದಿದ್ದರೂ, ಈ ಮಾದರಿಯು AIME26 ಬೆಂಚ್ಮಾರ್ಕ್ನಲ್ಲಿ DeepSeek V3.2 ಮತ್ತು Kimi K2.5 ನಂತಹ ಬೃಹತ್ ಮಾದರಿಗಳಿಗೆ ಸಮಾನವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ—ಈ ಬೃಹತ್ ಮಾದರಿಗಳು VibeThinker-3B ಗಿಂತ 200 ರಿಂದ 333 ಪಟ್ಟು ಹೆಚ್ಚು ಪ್ಯಾರಾಮೀಟರ್ಗಳನ್ನು ಹೊಂದಿವೆ.
LiveCodeBench ನಲ್ಲಿ, VibeThinker-3B 20 ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್ ಮಿತಿಯೊಳಗಿನ ಎಲ್ಲಾ ಇತರ ಮಾದರಿಗಳಿಗಿಂತ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಈ ಫಲಿತಾಂಶಗಳು ಕೇವಲ ಡೇಟಾ ಕಂಟಮಿನೇಷನ್ (data contamination)ನಿಂದ ಬಂದಿದ್ದಲ್ಲ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು, ಸಂಶೋಧಕರು ತರಬೇತಿಯ ನಂತರ ನಡೆದ 2026ರ ಮಧ್ಯಭಾಗದ LeetCode ಸ್ಪರ್ಧೆಗಳಲ್ಲಿ ಈ ಮಾದರಿಯನ್ನು ಪರೀಕ್ಷಿಸಿದರು. ಈ ಪರೀಕ್ಷೆಗಳಲ್ಲಿ, 3B ಮಾದರಿಯು 128 ಸಮಸ್ಯೆಗಳಲ್ಲಿ 123 ಅನ್ನು ಮೊದಲ ಪ್ರಯತ್ನದಲ್ಲೇ ಪರಿಹರಿಸಿತು, ಇದು GPT-5.2 ಮತ್ತು Qwen3-Max ನಂತಹ ಬಲಶಾಲಿ ಸ್ಪರ್ಧಿಗಳಿಗಿಂತ ಇದನ್ನು ಮುಂದಕ್ಕೆ ತಂದಿದೆ.
ಪ್ಯಾರಾಮೆಟ್ರಿಕ್ ಕಂಪ್ರೆಷನ್-ಕವರೇಜ್ ಹೈಪೋಥಿಸಿಸ್ (Parametric Compression-Coverage Hypothesis)
ಈ ಸಂಶೋಧನೆಯ ಅತ್ಯಂತ ಗಮನಾರ್ಹ ಕೊಡುಗೆ ಎಂದರೆ "Parametric Compression-Coverage Hypothesis" ಅನ್ನು ಪರಿಚಯಿಸುವುದು. ವಿವಿಧ AI ಸಾಮರ್ಥ್ಯಗಳು ವಿಭಿನ್ನವಾಗಿ ಸ್ಕೇಲ್ ಆಗುತ್ತವೆ ಎಂದು Sina ನ ಸಂಶೋಧಕರು ವಾದಿಸುತ್ತಾರೆ.
ತಾರ್ಕಿಕ ತರ್ಕ (Logical reasoning)—ಅಂದರೆ ಹಂತ-ಹಂತದ ಸಮಸ್ಯೆ ಪರಿಹಾರ, ದೋಷ ತಿದ್ದುಪಡಿ ಮತ್ತು ಪ್ಯಾಟರ್ನ್ ಮ್ಯಾಚಿಂಗ್—ಇದು ಮಿತಿಯೊಳಗಿನ ಪುನರಾವರ್ತಿತ ರಚನೆಗಳ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿದೆ. ಇದು "ತರ್ಕವನ್ನು" (reasoning) ಅತ್ಯಂತ ಸಂಕುಚಿತವಾದ ಮಾದರಿಯ ಕೋರ್ನಲ್ಲಿ ಅಡಕವಾಗಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. ಇದಕ್ಕೆ ವಿರುದ್ಧವಾಗಿ, ವಾಸ್ತವಿಕ ಜ್ಞಾನಕ್ಕೆ ವ್ಯಾಪಕವಾದ "ಕವರೇಜ್" (coverage) ಅಗತ್ಯವಿದೆ. ವಿವಿಧ ಕ್ಷೇತ್ರಗಳ ಮುಕ್ತ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಿಸಲು, ಜಗತ್ತಿನ ಸತ್ಯಗಳನ್ನು ಸಂಗ್ರಹಿಸುವ ಶೇಖರಣಾ ಪಾತ್ರೆಯಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಲು ಮಾದರಿಗೆ ಬೃಹತ್ ಸಂಖ್ಯೆಯ ಪ್ಯಾರಾಮೀಟರ್ಗಳ ಅಗತ್ಯವಿರುತ್ತದೆ. VibeThinker-3B ನ ಕಾರ್ಯಕ್ಷಮತೆಯ ವ್ಯತ್ಯಾಸವು ಇದಕ್ಕೆ ಸಾಕ್ಷಿಯಾಗಿದೆ: ಇದು ಪರಿಶೀಲಿಸಬಹುದಾದ ಗಣಿತ ಮತ್ತು ಕೋಡಿಂಗ್ನಲ್ಲಿ ಅತ್ಯುತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿದರೂ, ಜ್ಞಾನದ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿರುವ GPQA-Diamond ಬೆಂಚ್ಮಾರ್ಕ್ನಲ್ಲಿ ದೊಡ್ಡ ಮಾದರಿಗಳಿಗಿಂತ ಗಮನಾರ್ಹವಾಗಿ ಹಿಂದೆ ಬೀಳುತ್ತದೆ.
ಪ್ರಿಸೀಷನ್ ಪೋಸ್ಟ್-ಟ್ರೈನಿಂಗ್: ಯಶಸ್ಸಿನ ರಹಸ್ಯ
VibeThinker-3B ಅನ್ನು Alibaba ನ Qwen2.5-Coder-3B ಮೇಲೆ ನಿರ್ಮಿಸಲಾಗಿದೆ, ಆದರೆ ಇದರ ಕಾರ್ಯಕ್ಷಮಣೆಯಲ್ಲಿನ ಈ ದೊಡ್ಡ ಜಿಗಿತಕ್ಕೆ Sina ನ ಅತ್ಯಾಧುನಿಕ ಪೋಸ್ಟ್-ಟ್ರೈನಿಂಗ್ ಪೈಪ್ಲೈನ್ ಕಾರಣವಾಗಿದೆ. ತಂಡವು ಕೇವಲ ಮಾದರಿಯ ಗಾತ್ರದ ಮೇಲೆ ಗಮನಹರಿಸುವ ಬದಲು, ಹಲವಾರು ತೀವ್ರ ಹಂತಗಳ ಮೂಲಕ ಡೇಟಾ ಗುಣಮಟ್ಟ ಮತ್ತು ವ್ಯಾಲಿಡೇಶನ್ ಸಿಗ್ನಲ್ಗಳ ಮೇಲೆ ಗಮನ ಕೇಂದ್ರೀಕರಿಸಿತು:
- ಎರಡು ಹಂತದ ಸೂಪರ್ವೈಸ್ಡ್ ಫೈನ್-ಟ್ಯೂನಿಂಗ್ (SFT): ಗಣಿತ, ಕೋಡಿಂಗ್ ಮತ್ತು ಸಾಮಾನ್ಯ ಸಂಭಾಷಣೆಯ ಕಾರ್ಯಗಳ ವ್ಯಾಪಕ ಶ್ರೇಣಿಯ ಮೇಲೆ ತರಬೇತಿ.
- ಬಹು-ಹಂತದ ರಿಇನ್ಫೋರ್ಸ್ಮೆಂಟ್ ಲರ್ನಿಂಗ್ (RL): ಯಶಸ್ವಿ ಪರಿಹಾರದ ಹಾದಿಗಳನ್ನು ಬಲಪಡಿಸಲು ಗಣಿತ, ಪ್ರೋಗ್ರಾಮಿಂಗ್ ಮತ್ತು STEM ಗಾಗಿ ವಿಶೇಷವಾಗಿ ರೂಪಿಸಲಾಗಿದೆ.
- ಸೆಲ್ಫ್-ಡಿಸ್ಟಿಲೇಷನ್ (Self-Distillation): ವಿವಿಧ ತಾರ್ಕಿಕ ಹಂತಗಳ ಕೌಶಲ್ಯಗಳನ್ನು ಒಂದೇ ಸಮರ್ಥ ಮಾದರಿಯಲ್ಲಿ ಸಂಯೋಜಿಸುವುದು.
- ಇನ್ಸ್ಟ್ರಕ್ಷನ್ ಟ್ಯೂನಿಂಗ್ (Instruction Tuning): ಬಳಕೆದಾರರ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಕಟ್ಟುನಿಟ್ಟಾಗಿ ಪಾಲಿಸುವುದನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ಅಂತಿಮ ಹಂತ.
ಇದು AI ಉದ್ಯಮಕ್ಕೆ ಏಕೆ ಮುಖ್ಯ?
ಈ ಬೆಳವಣಿಗೆಯು ಡೆವಲಪರ್ಗಳು "ಸಣ್ಣ" ಮಾದರಿಗಳನ್ನು ನೋಡುವ ದೃಷ್ಟಿಕೋನದಲ್ಲಿ ಬದಲಾವಣೆಯನ್ನು ಸೂಚಿಸುತ್ತದೆ. ಅವು ಕೇವಲ ಸರಳ ಕಾರ್ಯಗಳಿಗಾಗಿ ಲಘುವಾದ, ಕಡಿಮೆ ವೆಚ್ಚದ ಪರ್ಯಾಯಗಳಾಗಿ ಉಳಿದಿಲ್ಲ; ಅವು ಪರಿಶೀಲಿಸಬಹುದಾದ, ತರ್ಕ-ಚಾಲಿತ ಕಾರ್ಯಪ್ರವೃತ್ತಿಗಳಿಗಾಗಿ (workflows) ವಿಶೇಷ ಶಕ್ತಿ ಕೇಂದ್ರಗಳಾಗುತ್ತಿವೆ. ಉದ್ಯಮವು ಏಜೆಂಟಿಕ್ AI (agentic AI) ಕಡೆಗೆ ಸಾಗುತ್ತಿರುವಾಗ—ಅಂದರೆ ಮಾದರಿಗಳು ಬಹು-ಹಂತದ ಪ್ರಕ್ರಿಯೆಗಳ ಮೂಲಕ ತರ್ಕ ಮಾಡಬೇಕಾದಾಗ—3B ಪ್ಯಾರಾಮೀಟರ್ ಮಾದರಿಯಲ್ಲಿ ಉನ್ನತ ಮಟ್ಟದ ತರ್ಕವನ್ನು ಅಡಕ ಮಾಡುವ ಸಾಮರ್ಥ್ಯವು, ಕಾರ್ಯನಿರ್ವಹಿಸಲು ಬೃಹತ್ ಡೇಟಾ ಸೆಂಟರ್ಗಳ ಅಗತ್ಯವಿಲ್ಲದ ಅತ್ಯಂತ ದಕ್ಷ, ಸ್ಥಳೀಯ ಮತ್ತು ವಿಶೇಷ ಬುದ್ಧಿವಂತಿಕೆಯ ಕಡೆಗೆ ದಾರಿಯನ್ನು ಮಾಡಿಕೊಡುತ್ತದೆ.
ಪ್ರಮುಖ ಅಂಶಗಳು
- ತರ್ಕವು ಸಂಕುಚಿತಗೊಳಿಸಬಹುದಾದದ್ದು: ಸಂಕೀರ್ಣ ಗಣಿತ ಮತ್ತು ಕೋಡಿಂಗ್ ತರ್ಕವನ್ನು 3B ಮಾದರಿಯಲ್ಲಿ ಅಡಕ ಮಾಡಬಹುದು ಮತ್ತು ನೂರಾರು ಪಟ್ಟು ದೊಡ್ಡ ಮಾದರಿಗಳಿಗೆ ಸರಿಸಾಟಿಯಾಗಬಹುದು ಎಂದು VibeThinker-3B ಸಾಬೀತುಪಡಿಸಿದೆ.
- ಜ್ಞಾನಕ್ಕೆ ಸ್ಕೇಲ್ ಅಗತ್ಯವಿದೆ: ತರ್ಕವು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಸ್ಕೇಲ್ ಆಗಿದ್ದರೂ, ಸಾಮಾನ್ಯ ಜ್ಞಾನದ ಬೆಂಚ್ಮಾರ್ಕ್ಗಳಲ್ಲಿ ಕಾರ್ಯಕ್ಷಮತೆ ಕುಸಿಯುವುದನ್ನು ತಡೆಯಲು ವಾಸ್ತವಿಕ "ಕವರೇಜ್" ಗೆ ಇನ್ನೂ ಹೆಚ್ಚಿನ ಪ್ಯಾರಾಮೀಟರ್ಗಳ ಅಗತ್ಯವಿದೆ.
- ಪೋಸ್ಟ್-ಟ್ರೈನಿಂಗ್ ಅತ್ಯಗತ್ಯ: ಮಾದರಿಯ ಯಶಸ್ಸು ಕೇವಲ ಪ್ರಿ-ಟ್ರೈನಿಂಗ್ ಸ್ಕೇಲ್ನಿಂದಲ್ಲದೆ, ವಿಶೇಷ ಬಹು-ಹಂತದ ರಿಇನ್ಫೋರ್ಸ್ಮೆಂಟ್ ಲರ್ನಿಂಗ್ ಮತ್ತು ಸೆಲ್ಫ್-ಡಿಸ್ಟಿಲೇಷನ್ನಿಂದ ಪ್ರೇರಿತವಾಗಿದೆ.
