VibeThinker-3B ของ Sina พิสูจน์ว่าการใช้เหตุผลสามารถบีบอัดได้ดีกว่าความรู้

Sina ได้เปิดตัว VibeThinker-3B ซึ่งเป็นโมเดลภาษาขนาดเล็กที่ท้าทายกฎการขยายขนาด (scaling laws) แบบดั้งเดิม โดยสามารถเทียบชั้นกับโมเดลขนาดมหึมาในงานด้านการใช้เหตุผลที่ซับซ้อนได้ ความก้าวหน้าครั้งนี้ชี้ให้เห็นว่าความฉลาดทางตรรกะสามารถถูกควบแน่นให้อยู่ในจำนวนพารามิเตอร์ที่น้อยนิดได้ แม้ว่าความกว้างขวางของข้อมูลข้อเท็จจริงจะยังคงผูกติดอยู่กับขนาดของโมเดลก็ตาม

ท้าทายกฎการขยายขนาด: ความเป็นเลิศด้านคณิตศาสตร์และการเขียนโค้ด

ผลลัพธ์ทางเทคนิคของ VibeThinker-3B นั้นน่าตกตะลึง แม้จะมีพารามิเตอร์เพียงสามพันล้านตัว แต่โมเดลนี้กลับทำผลงานได้เทียบเท่ากับยักษ์ใหญ่อย่าง DeepSeek V3.2 และ Kimi K2.5 ในการทดสอบ AIME26 ซึ่งเป็นโมเดลที่มีพารามิเตอร์มากกว่าถึง 200 ถึง 333 เท่า

ใน LiveCodeBench นั้น VibeThinker-3B ทำผลงานได้เหนือกว่าโมเดลอื่นๆ ทุกตัวที่มีพารามิเตอร์ต่ำกว่า 2 หมื่นล้านตัว เพื่อให้แน่ใจว่าผลลัพธ์เหล่านี้ไม่ได้เกิดจากการปนเปื้อนของข้อมูล (data contamination) นักวิจัยจึงได้ทดสอบโมเดลด้วยการแข่งขัน LeetCode ที่จัดขึ้นในช่วงกลางปี 2026 ซึ่งเป็นช่วงเวลาหลังจากที่การฝึกฝนโมเดลสิ้นสุดลงนานแล้ว ในการทดสอบเหล่านี้ โมเดลขนาด 3B สามารถแก้โจทย์ได้ถึง 123 จาก 128 ข้อในการพยายามครั้งแรก ซึ่งทำให้มันก้าวล้ำหน้าคู่แข่งระดับหนักอย่าง GPT-5.2 และ Qwen3-Max

สมมติฐานการบีบอัด-ความครอบคลุมเชิงพารามิเตอร์ (Parametric Compression-Coverage Hypothesis)

สิ่งที่มีความสำคัญที่สุดของงานวิจัยนี้คือการนำเสนอ "Parametric Compression-Coverage Hypothesis" โดยนักวิจัยของ Sina แย้งว่าความสามารถที่แตกต่างกันของ AI นั้นมีการขยายขนาด (scale) ที่แตกต่างกัน

การใช้เหตุผลเชิงตรรกะ ซึ่งมีลักษณะเด่นคือการแก้ปัญหาแบบเป็นขั้นตอน การแก้ไขข้อผิดพลาด และการจับคู่รูปแบบ (pattern matching) อาศัยโครงสร้างที่เกิดขึ้นซ้ำๆ ในชุดที่จำกัด สิ่งนี้ช่วยให้ "การใช้เหตุผล" สามารถถูกบีบอัดได้อย่างสูงลงในแกนกลางของโมเดลที่กะทัดรัด ในทางตรงกันข้าม ความรู้เชิงข้อเท็จจริงต้องการ "ความครอบคลุม" (coverage) ที่กว้างขวาง การจะตอบคำถามปลายเปิดในโดเมนที่หลากหลาย โมเดลจำเป็นต้องมีพารามิเตอร์จำนวนมหาศาลเพื่อทำหน้าที่เป็นแหล่งจัดเก็บข้อเท็จจริงของโลก สิ่งนี้เห็นได้ชัดจากช่องว่างของประสิทธิภาพใน VibeThinker-3B: แม้ว่ามันจะโดดเด่นในด้านคณิตศาสตร์และโค้ดที่สามารถตรวจสอบได้ แต่กลับตามหลังโมเดลขนาดใหญ่กว่าอย่างมากในการทดสอบ GPQA-Diamond ที่เน้นหนักด้านความรู้

Precision Post-Training: เคล็ดลับความสำเร็จ

VibeThinker-3B ถูกสร้างขึ้นบนพื้นฐานของ Qwen2.5-Coder-3B ของ Alibaba แต่การก้าวกระโดดของประสิทธิภาพนั้นมาจากกระบวนการ post-training ที่ซับซ้อนของ Sina ทีมงานได้เปลี่ยนจากการเน้นเพียงแค่ขนาดที่ใหญ่ขึ้น มาเป็นการมุ่งเน้นที่คุณภาพของข้อมูลและสัญญาณการตรวจสอบ (validation signals) ผ่านขั้นตอนที่เข้มข้นหลายขั้นตอน:

  • Two-Stage Supervised Fine-Tuning (SFT): การฝึกฝนในงานด้านคณิตศาสตร์ การเขียนโค้ด และการสนทนาทั่วไปที่หลากหลาย
  • Multi-Stage Reinforcement Learning (RL): ออกแบบมาโดยเฉพาะสำหรับคณิตศาสตร์ การเขียนโปรแกรม และ STEM เพื่อเสริมสร้างเส้นทางการแก้ปัญหาที่ประสบความสำเร็จ
  • Self-Distillation: การรวบรวมทักษะจากขั้นตอนการใช้เหตุผลต่างๆ เข้าสู่โมเดลเดียวที่มีประสิทธิภาพ
  • Instruction Tuning: ขั้นตอนสุดท้ายเพื่อให้แน่ใจว่าโมเดลปฏิบัติตามคำสั่งของผู้ใช้ได้อย่างเคร่งครัด

ทำไมเรื่องนี้จึงสำคัญต่ออุตสาหกรรม AI

การพัฒนานี้ส่งสัญญาณถึงการเปลี่ยนแปลงในมุมมองที่นักพัฒนาที่มีต่อโมเดล "ขนาดเล็ก" โมเดลเหล่านี้ไม่ใช่แค่ทางเลือกที่มีน้ำหนักเบาและราคาถูกสำหรับงานง่ายๆ อีกต่อไป แต่กำลังกลายเป็นขุมพลังเฉพาะทางสำหรับเวิร์กโฟลว์ที่ขับเคลื่อนด้วยตรรกะและสามารถตรวจสอบได้ ในขณะที่อุตสาหกรรมกำลังมุ่งหน้าสู่ agentic AI ซึ่งโมเดลต้องใช้เหตุผลผ่านกระบวนการหลายขั้นตอน ความสามารถในการบรรจุตรรกะระดับสูงลงในโมเดลพารามิเตอร์ 3B จึงเป็นหนทางไปสู่ปัญญาประดิษฐ์ที่มีประสิทธิภาพสูง ทำงานในระดับท้องถิ่น (local) และมีความเชี่ยวชาญเฉพาะด้าน โดยไม่จำเป็นต้องใช้ศูนย์ข้อมูลขนาดมหึมาในการทำงาน

สรุปประเด็นสำคัญ

  • การใช้เหตุผลสามารถบีบอัดได้: VibeThinker-3B พิสูจน์ให้เห็นว่าตรรกะทางคณิตศาสตร์และการเขียนโค้ดที่ซับซ้อนสามารถบรรจุลงในโมเดล 3B ได้ โดยสามารถเทียบชั้นกับโมเดลที่มีขนาดใหญ่กว่าหลายร้อยเท่า
  • ความรู้ต้องการขนาดที่ใหญ่: ในขณะที่การใช้เหตุผลสามารถขยายขนาดได้อย่างมีประสิทธิภาพ แต่ "ความครอบคลุม" ของข้อเท็จจริงยังคงต้องการจำนวนพารามิเตอร์ที่สูงเพื่อป้องกันไม่ให้ประสิทธิภาพลดลงในการทดสอบความรู้ทั่วไป
  • Post-Training คือหัวใจสำคัญ: ความสำเร็จของโมเดลนี้ขับเคลื่อนด้วยการเรียนรู้แบบเสริมกำลัง (Reinforcement Learning) หลายขั้นตอนที่ออกแบบมาโดยเฉพาะและการกลั่นกรองด้วยตนเอง (self-distillation) มากกว่าการเน้นเพียงขนาดของการฝึกเบื้องต้น (pre-training)