VibeThinker-3B של Sina מוכיח שהסקה מתכווצת טוב יותר מידע

Sina שחררה את VibeThinker-3B, מודל שפה קטן המתגבר על חוקי ה-scaling המסורתיים על ידי השוואת ביצועים למודלים ענקיים במשימות הסקה מורכבות. פריצת דרך זו מרמזת שאינטליגנציה לוגית יכולה להיות דחוסה בתוך טביעת רגל קטנה של פרמטרים, גם אם רוחב הידע העובדתי נותר קשור לגודל המודל.

קריאת תיגר על חוקי ה-scaling: מצוינות במתמטיקה ובתכנות

התוצאות הטכניות עבור VibeThinker-3B מדהימות. למרות שיש לו רק שלושה מיליארד פרמטרים, המודל מציג ביצועים שווים לענקים כמו DeepSeek V3.2 ו-Kimi K2.5 במבחן ה-AIME26 — מודלים בעלי כמות פרמטרים הגדולה פי 200 עד 333.

ב-LiveCodeBench, VibeThinker-3B עולה בביצועיה על כל מודל אחר מתחת לסף ה-20 מיליארד פרמטרים. כדי להבטיח שהתוצאות הללו אינן רק תוצר של זיהום נתונים (data contamination), חוקרים בדקו את המודל בתחרויות LeetCode שנערכו באמצע 2026, זמן רב לאחר סיום האימון שלו. במבחנים אלו, מודל ה-3B פתר 123 מתוך 128 בעיות בניסיון הראשון, מה שמציב אותו לפני מתחרים כבדים כמו GPT-5.2 ו-Qwen3-Max.

היפותזת ה-Parametric Compression-Coverage

התרומה המשמעותית ביותר של מחקר זה היא הצגת "היפותזת ה-Parametric Compression-Coverage". החוקרים של Sina טוענים שיכולות AI שונות מתרחבות (scale) בצורה שונה.

הסקה לוגית — המאופיינת בפתרון בעיות שלב אחר שלב, תיקון שגיאות והתאמת תבניות — נשענת על סט מוגבל של מבנים חוזרים. זה מאפשר ל"הסקה" להיות דחוסה מאוד בתוך ליבת מודל קומפקטית. לעומת זאת, ידע עובדתי דורש "כיסוי" (coverage) רחב. כדי לענות על שאלות פתוחות בתחומים מגוונים, מודל זקוק למספר עצום של פרמטרים שישמשו ככלי אחסון לעובדות העולם. הדבר בא לידי ביטוי בפער הביצועים של VibeThinker-3B: בעוד שהוא מצטיין במתמטיקה ובקוד הניתנים לאימות, הוא מפגר משמעותית אחרי מודלים גדולים יותר במבחן ה-GPQA-Diamond העשיר בידע.

דיוק בשלב ה-Post-Training: המתכון הסודי

VibeThinker-3B מבוסס על Qwen2.5-Coder-3B של Alibaba, אך הקפיצה בביצועים מיוחסת לתהליך ה-post-training המתוחכם של Sina. הצוות התרחק מהתמקדות בקנה מידה גולמי, והתמקד במקום זאת באיכות הנתונים ובאותות אימות (validation signals) דרך מספר שלבים אינטנסיביים:

  • Supervised Fine-Tuning (SFT) דו-שלבי: אימון על מגוון רחב של משימות מתמטיקה, תכנות ודיאלוג כללי.
  • Reinforcement Learning (RL) רב-שלבי: מותאם במיוחד למתמטיקה, תכנות ו-STEM כדי לחזק נתיבי פתרון מוצלחים.
  • Self-Distillation: איחוד מיומנויות משלבי הסקה שונים למודל יחיד ויעיל.
  • Instruction Tuning: שלב סופי להבטחת הקפדה קפדנית על הנחיות המשתמש (prompts).

למה זה חשוב לתעשיית ה-AI

פיתוח זה מסמן שינוי באופן שבו מפתחים תופסים מודלים "קטנים". הם כבר לא רק חלופות קלות וזולות למשימות פשוטות; הם הופכים לכוח משיבתי (powerhouses) מתמחה עבור תהליכי עבודה מבוססי לוגיקה הניתנים לאימות. ככל שהתעשייה נעה לעבר agentic AI — שבו מודלים חייבים לבצע הסקה בתהליכים רב-שלביים — היכולת לארוז לוגיקה ברמה גבוהה בתוך מודל של 3B פרמטרים מציעה נתיב לעבר אינטליגנציה יעילה, מקומית ומתמחה שאינה דורשת מרכזי נתונים עצומים כדי לפעול.

נקודות מפתח

  • הסקה היא ניתנת לדחיסה: VibeThinker-3B מוכיח שניתן לארוז לוגיקה מתמטית ותכנותית מורכבת בתוך מודל של 3B, תוך התחרות על מודלים הגדולים במאות מונים.
  • ידע דורש קנה מידה (Scale): בעוד שהסקה מתרחבת ביעילות, "כיסוי" עובדתי עדיין דורש מספר גבוה של פרמטרים כדי למנוע ירידה בביצועים במבחני ידע כללי.
  • ה-Post-Training הוא המפתח: הצלחת המודל מונעת על ידי Reinforcement Learning רב-שלבי ומתמחה ו-self-distillation, ולא על ידי קנה מידה גולמי של pre-training.