VibeThinker-3B от Sina доказывает, что рассуждение сжимается лучше, чем знания
Sina выпустила VibeThinker-3B — малую языковую модель, которая бросает вызов традиционным законам масштабирования, не уступая гигантским моделям в сложных задачах на рассуждение. Этот прорыв позволяет предположить, что логический интеллект можно упаковать в крошечный объем параметров, даже если широта фактических знаний по-прежнему зависит от размера модели.
Вызов законам масштабирования: превосходство в математике и программировании
Технические результаты VibeThinker-3B поражают. Несмотря на наличие всего трех миллиардов параметров, модель демонстрирует результаты на уровне таких гигантов, как DeepSeek V3.2 и Kimi K2.5, в бенчмарке AIME26 — моделей, которые обладают в 200–333 раза большим количеством параметров.
В LiveCodeBench VibeThinker-3B превосходит любую другую модель с порогом параметров менее 20 миллиардов. Чтобы убедиться, что эти результаты не являются следствием утечки данных (data contamination), исследователи протестировали модель на соревнованиях LeetCode, проходивших в середине 2026 года, то есть спустя долгое время после завершения её обучения. В этих тестах модель 3B решила 123 из 128 задач с первой попытки, опередив таких тяжеловесов, как GPT-5.2 и Qwen3-Max.
Гипотеза параметрического сжатия-охвата
Самым значимым вкладом этого исследования является введение «гипотезы параметрического сжатия-охвата» (Parametric Compression-Coverage Hypothesis). Исследователи Sina утверждают, что различные возможности ИИ масштабируются по-разному.
Логическое рассуждение, характеризующееся пошаговым решением задач, исправлением ошибок и поиском закономерностей, опирается на ограниченный набор повторяющихся структур. Это позволяет «рассуждению» подвергаться сильному сжатию в компактное ядро модели. Напротив, фактические знания требуют широкого «охвата». Чтобы отвечать на открытые вопросы в различных областях, модели требуется огромное количество параметров, выступающих в роли хранилища фактов о мире. Об этом свидетельствует разрыв в производительности VibeThinker-3B: преуспевая в проверяемой математике и коде, она значительно отстает от более крупных моделей в бенчмарке GPQA-Diamond, требующем глубоких знаний.
Точное пост-обучение: секретный ингредиент
VibeThinker-3B построена на базе Qwen2.5-Coder-3B от Alibaba, однако скачок производительности объясняется сложным конвейером пост-обучения (post-training pipeline) от Sina. Команда отказалась от погони за масштабом, сосредоточившись на качестве данных и сигналах валидации через несколько интенсивных этапов:
- Двухэтапное обучение с учителем (SFT): Обучение на широком спектре задач по математике, программированию и общему диалогу.
- Многоэтапное обучение с подкреплением (RL): Специально адаптировано для математики, программирования и STEM-дисциплин для закрепления успешных путей решения.
- Самодистилляция (Self-Distillation): Объединение навыков из различных фаз рассуждения в единую эффективную модель.
- Настройка инструкций (Instruction Tuning): Заключительный этап для обеспечения строгого соблюдения запросов пользователя.
Почему это важно для индустрии ИИ
Эта разработка знаменует собой сдвиг в восприятии «малых» моделей разработчиками. Они больше не являются просто легковесными и дешевыми альтернативами для простых задач; они становятся специализированными мощными инструментами для проверяемых, логически обоснованных рабочих процессов. Поскольку индустрия движется в сторону агентного ИИ (agentic AI), где модели должны рассуждать в рамках многошаговых процессов, способность упаковывать высокоуровневую логику в модель с 3B параметров открывает путь к высокоэффективному, локальному и специализированному интеллекту, не требующему огромных дата-центров для работы.
Основные выводы
- Рассуждение поддается сжатию: VibeThinker-3B доказывает, что сложную математическую и программную логику можно упаковать в модель 3B, способную соперничать с моделями, которые в сотни раз больше.
- Знания требуют масштаба: В то время как рассуждение масштабируется эффективно, фактический «охват» всё еще требует большого количества параметров, чтобы избежать падения производительности в бенчмарках на общие знания.
- Пост-обучение решает всё: Успех модели обусловлен специализированным многоэтапным обучением с подкреплением и самодистилляцией, а не просто масштабом предварительного обучения.
