𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗶𝗻𝗴 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗮 𝟲 𝗚𝗕 𝗟𝗮𝗽𝘁𝗼𝗽 𝗚𝗣𝗨
Nilijaribu kuweka mifumo mikubwa ya lugha (large language models) kwenye GPU ya laptop ya RTX 3050. Kadi hii ina VRAM ya GB 6 pekee. Nilitaka kuona ni modeli zipi zinafanya kazi kwa kutumia 4-bit quantization na zipi zinashindwa.
Nilitumia skripti moja kufanya quantization kwa modeli tatu:
- Phi-3.5-mini (3.8B)
- Llama-3.2-3B
- Qwen2.5-3B (VibeThinker)
Matokeo: Phi na Llama zilifanya kazi vizuri. Phi ilipungua kutoka 7.6 GB hadi 2.2 GB ndani ya dakika 34. Llama na VibeThinker zilifuata mkondo kama huo. Modeli hizi ziliingia kwa urahisi.
Kisha nilijaribu Qwen2.5-7B. Ilishindwa. Mchakato ulisimama (crashed) kwenye tabaka la pili (second layer) kwa kosa la Out of Memory.
Kwa nini ilishindwa: Quantization ya GPTQ hujenga Hessian matrix kwa kila tabaka. Kwa modeli ya 7B, hesabu hii inahitaji kumbukumbu (memory) zaidi kuliko kadi ya GB 6 inavyoweza kutoa. Nilijaribu marekebisho kadhaa:
- Seti ndogo za data za calibration: Hakuna mabadiliko.
- Kuhamisha Hessians kwenda kwenye CPU: Ilidumu kwa muda mrefu zaidi lakini bado ilifeli.
- Kutumia AWQ badala ya GPTQ: Ilifeli mahali pale pale.
- Kutumia CPU pekee: Inafanya kazi lakini ni polepole sana. Inachukua takriban dakika 16 kwa kila tabaka.
Mambo Muhimu ya Kuzingatia kwa GPU Ndogo:
- Tarajia upunguzaji wa mara 3 wa ukubwa wa modeli.
- Lenga kikomo cha parametri za bilioni 3 hadi 4 kwa ajili ya quantization ya GPU.
- Zingatia bajeti yako ya KV. Hata kama ukubwa wa faili ni sawa, kumbukumbu inayotumika wakati wa inference inatofautiana.
- Quantization hutumia kumbukumbu zaidi kuliko serving. Fuatilia RAM ya mfumo wako wakati wa mchakato huu.
Ulinganishaji wa Modeli (W4A16): • Phi-3.5-mini: 2.27 GB | 68.7 tok/s • Llama-3.2-3B: 2.26 GB | 66.0 tok/s • VibeThinker-3B: 2.07 GB | 43.9 tok/s
Modeli zote tatu zilichakata hesabu za msingi na mantiki ya namba tasa (prime number logic) kwa usahihi baada ya quantization.
Jumuiya ya hiari ya kujifunza: https://t.me/GyaanSetuAi