𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗶𝗻𝗴 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗮 𝟲 𝗚𝗕 𝗟𝗮𝗽𝘁𝗼𝗽 𝗚𝗣𝗨

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialsiku 4 zilizopita1min read

Nilijaribu kuweka mifumo mikubwa ya lugha (large language models) kwenye GPU ya laptop ya RTX 3050. Kadi hii ina VRAM ya GB 6 pekee. Nilitaka kuona ni modeli zipi zinafanya kazi kwa kutumia 4-bit quantization na zipi zinashindwa.

Nilitumia skripti moja kufanya quantization kwa modeli tatu:

Phi-3.5-mini (3.8B)
Llama-3.2-3B
Qwen2.5-3B (VibeThinker)

Matokeo: Phi na Llama zilifanya kazi vizuri. Phi ilipungua kutoka 7.6 GB hadi 2.2 GB ndani ya dakika 34. Llama na VibeThinker zilifuata mkondo kama huo. Modeli hizi ziliingia kwa urahisi.

Kisha nilijaribu Qwen2.5-7B. Ilishindwa. Mchakato ulisimama (crashed) kwenye tabaka la pili (second layer) kwa kosa la Out of Memory.

Kwa nini ilishindwa: Quantization ya GPTQ hujenga Hessian matrix kwa kila tabaka. Kwa modeli ya 7B, hesabu hii inahitaji kumbukumbu (memory) zaidi kuliko kadi ya GB 6 inavyoweza kutoa. Nilijaribu marekebisho kadhaa:

Seti ndogo za data za calibration: Hakuna mabadiliko.
Kuhamisha Hessians kwenda kwenye CPU: Ilidumu kwa muda mrefu zaidi lakini bado ilifeli.
Kutumia AWQ badala ya GPTQ: Ilifeli mahali pale pale.
Kutumia CPU pekee: Inafanya kazi lakini ni polepole sana. Inachukua takriban dakika 16 kwa kila tabaka.

Mambo Muhimu ya Kuzingatia kwa GPU Ndogo:

Tarajia upunguzaji wa mara 3 wa ukubwa wa modeli.
Lenga kikomo cha parametri za bilioni 3 hadi 4 kwa ajili ya quantization ya GPU.
Zingatia bajeti yako ya KV. Hata kama ukubwa wa faili ni sawa, kumbukumbu inayotumika wakati wa inference inatofautiana.
Quantization hutumia kumbukumbu zaidi kuliko serving. Fuatilia RAM ya mfumo wako wakati wa mchakato huu.

Ulinganishaji wa Modeli (W4A16): • Phi-3.5-mini: 2.27 GB | 68.7 tok/s • Llama-3.2-3B: 2.26 GB | 66.0 tok/s • VibeThinker-3B: 2.07 GB | 43.9 tok/s

Modeli zote tatu zilichakata hesabu za msingi na mantiki ya namba tasa (prime number logic) kwa usahihi baada ya quantization.

Chanzo: https://dev.to/syedazeez/quantizing-three-models-to-fit-a-6-gb-laptop-gpu-and-the-one-that-wouldnt-4pjl

Jumuiya ya hiari ya kujifunza: https://t.me/GyaanSetuAi

𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗶𝗻𝗴 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗮 𝟲 𝗚𝗕 𝗟𝗮𝗽𝘁𝗼𝗽 𝗚𝗣𝗨

Continue reading

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗮 𝟮𝟳𝟬𝗠 𝗠𝗼𝗱𝗲𝗹 𝗼𝗻 𝗠𝘆 𝗟𝗮𝗽𝘁𝗼𝗽