Квантование моделей на ноутбучном GPU с 6 ГБ

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorial4 дня назад1мин чтения

Квантование моделей на ноутбучном GPU с 6 ГБ VRAM

Я попытался уместить большие языковые модели на ноутбучном GPU RTX 3050. У этой карты всего 6 ГБ видеопамяти (VRAM). Я хотел проверить, какие модели работают с 4-битным квантованием, а какие — нет.

Я использовал один скрипт для квантования трех моделей:

Phi-3.5-mini (3.8B)
Llama-3.2-3B
Qwen2.5-3B (VibeThinker)

Результаты: Phi и Llama отработали хорошо. Размер Phi уменьшился с 7,6 ГБ до 2,2 ГБ за 34 минуты. Llama и VibeThinker показали схожие результаты. Эти модели легко помещаются в память.

Затем я попробовал Qwen2.5-7B. Процесс завершился ошибкой. Квантование упало на втором слое с ошибкой Out of Memory (нехватка памяти).

Почему это не удалось: Квантование GPTQ строит матрицу Гессе для каждого слоя. Для модели на 7 млрд параметров эти вычисления требуют больше памяти, чем предоставляет карта с 6 ГБ. Я попробовал несколько способов решения:

Меньшие калибровочные датасеты: без изменений.
Выгрузка матриц Гессе на CPU: процесс шел дольше, но все равно завершился ошибкой.
Использование AWQ вместо GPTQ: ошибка возникла в том же месте.
Использование только CPU: работает, но слишком медленно. На обработку одного слоя уходит около 16 минут.

Основные выводы для небольших GPU:

Ожидайте трехкратного уменьшения размера модели.
Для квантования на GPU ориентируйтесь на предел в 3–4 миллиарда параметров.
Следите за объемом KV-кэша. Даже если размеры файлов схожи, объем памяти, используемый во время инференса, различается.
Квантование потребляет больше памяти, чем сам запуск модели (serving). Следите за оперативной памятью (RAM) во время процесса.

Сравнение моделей (W4A16): • Phi-3.5-mini: 2.27 GB | 68.7 tok/s • Llama-3.2-3B: 2.26 GB | 66.0 tok/s • VibeThinker-3B: 2.07 GB | 43.9 tok/s

После квантования все три модели корректно справились с базовой математикой и логикой работы с простыми числами.

Источник: https://dev.to/syedazeez/quantizing-three-models-to-fit-a-6-gb-laptop-gpu-and-the-one-that-wouldnt-4pjl

Дополнительное сообщество для обучения: https://t.me/GyaanSetuAi

Квантование моделей на ноутбучном GPU с 6 ГБ

Продолжить чтение

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗮 𝟮𝟳𝟬𝗠 𝗠𝗼𝗱𝗲𝗹 𝗼𝗻 𝗠𝘆 𝗟𝗮𝗽𝘁𝗼𝗽