VibeThinker-3B від Sina доводить, що логічне мислення стискається краще, ніж знання

Sina випустила VibeThinker-3B — малу мовну модель, яка кидає виклик традиційним законам масштабування, зрівнюючись із величезними моделями у складних завданнях на логічне мислення. Цей прорив свідчить про те, що логічний інтелект можна стиснути до крихітного обсягу параметрів, навіть якщо широта фактичних знань залишається залежною від розміру моделі.

Виклик законам масштабування: досконалість у математиці та програмуванні

Технічні результати VibeThinker-3B вражають. Попри наявність лише трьох мільярдів параметрів, модель демонструє результати на рівні таких гігантів, як DeepSeek V3.2 та Kimi K2.5, у бенчмарку AIME26 — моделей, що мають у 200–333 рази більше параметрів.

У LiveCodeBench VibeThinker-3B перевершує всі інші моделі з порогом до 20 мільярдів параметрів. Щоб переконатися, що ці результати не є лише наслідком «забруднення даних» (data contamination), дослідники протестували модель на змаганнях LeetCode, що проходили в середині 2026 року, вже після завершення її навчання. У цих тестах модель на 3B вирішила 123 із 128 задач з першої спроби, випередивши таких важковаговиків, як GPT-5.2 та Qwen3-Max.

Гіпотеза параметричного стиснення-охоплення

Найважливішим внеском цього дослідження є запровадження «гіпотези параметричного стиснення-охоплення» (Parametric Compression-Coverage Hypothesis). Дослідники Sina стверджують, що різні можливості ШІ масштабуються по-різному.

Логічне мислення — що характеризується поетапним розв'язанням задач, виправленням помилок і розпізнаванням закономірностей — спирається на обмежений набір повторюваних структур. Це дозволяє «мислення» сильно стиснути в компактне ядро моделі. Навпаки, фактичні знання потребують широкого «охоплення». Щоб відповідати на відкриті запитання в різних галузях, моделі потрібна величезна кількість параметрів, які слугуватимуть сховищем світових фактів. Про це свідчить розрив у продуктивності VibeThinker-3B: хоча вона демонструє чудові результати у перевірюваній математиці та кодуванні, вона значно поступається більшим моделям у бенчмарку GPQA-Diamond, що орієнтований на глибокі знання.

Прецизійне донавчання: секретний інгредієнт

VibeThinker-3B побудована на базі Qwen2.5-Coder-3B від Alibaba, але стрибок продуктивності пояснюється складним конвеєром донавчання (post-training pipeline) від Sina. Команда відмовилася від простого збільшення масштабу, зосередившись на якості даних та сигналах валідації через кілька інтенсивних етапів:

  • Двоетапне навчання з учителем (SFT): Навчання на широкому спектрі завдань із математики, програмування та загальних діалогів.
  • Багатоетапне навчання з підкріпленням (RL): Спеціально адаптоване для математики, програмування та STEM, щоб зміцнити успішні шляхи розв'язання.
  • Самодистиляція: Консолідація навичок із різних фаз мислення в єдину ефективну модель.
  • Налаштування інструкцій (Instruction Tuning): Фінальний етап для забезпечення суворого дотримання запитів користувача.

Чому це важливо для індустрії ШІ

Ця розробка сигналізує про зміну погляду розробників на «малі» моделі. Вони більше не є просто легкими та дешевими альтернативами для простих завдань; вони стають спеціалізованими потужними інструментами для перевірюваних, логічно обґрунтованих робочих процесів. Оскільки індустрія рухається в бік агентного ШІ (agentic AI), де моделі мають мислити через багатоетапні процеси, здатність упакувати високорівневу логіку в модель із 3B параметрів відкриває шлях до високоефективного, локального та спеціалізованого інтелекту, який не потребує величезних дата-центрів для роботи.

Основні висновки

  • Мислення піддається стисненню: VibeThinker-3B доводить, що складну математичну та програмну логіку можна упакувати в модель на 3B параметрів, що дозволяє їй конкурувати з моделями, які в сотні разів більші.
  • Знання потребують масштабу: Хоча мислення масштабується ефективно, фактичне «охоплення» все ще потребує великої кількості параметрів, щоб запобігти падінню продуктивності в бенчмарках загальних знань.
  • Донавчання — це головне: Успіх моделі зумовлений спеціалізованим багатоетапним навчанням з підкріпленням та самодистиляцією, а не просто масштабом попереднього навчання.