Kuantisasi Model pada GPU Laptop 6 GB

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial4 hari yang lalu1min read

Kuantisasi Model pada GPU Laptop 6 GB

Saya mencoba memasukkan large language models ke dalam GPU laptop RTX 3050. Kartu ini hanya memiliki 6 GB VRAM. Saya ingin melihat model mana yang berfungsi dengan kuantisasi 4-bit dan mana yang gagal.

Saya menggunakan satu skrip untuk mengkuantisasi tiga model:

Phi-3.5-mini (3.8B)
Llama-3.2-3B
Qwen2.5-3B (VibeThinker)

Hasilnya: Phi dan Llama berjalan dengan baik. Phi berkurang dari 7,6 GB menjadi 2,2 GB dalam 34 menit. Llama dan VibeThinker mengikuti pola yang serupa. Model-model ini dapat masuk dengan mudah.

Kemudian saya mencoba Qwen2.5-7B. Hasilnya gagal. Prosesnya crash pada layer kedua dengan error Out of Memory.

Mengapa gagal: Kuantisasi GPTQ membangun matriks Hessian untuk setiap layer. Untuk model 7B, perhitungan matematika ini membutuhkan memori lebih besar daripada yang disediakan kartu 6 GB. Saya mencoba beberapa perbaikan:

Dataset kalibrasi yang lebih kecil: Tidak ada perubahan.
Offloading Hessians ke CPU: Bertahan lebih lama tetapi tetap crash.
Menggunakan AWQ alih-alih GPTQ: Crash di tempat yang sama.
Hanya menggunakan CPU: Berhasil tetapi terlalu lambat. Membutuhkan waktu sekitar 16 menit per layer.

Poin Penting untuk GPU Kecil:

Harapkan pengurangan ukuran model sebesar 3x.
Targetkan batas 3 hingga 4 miliar parameter untuk kuantisasi GPU.
Perhatikan budget KV Anda. Meskipun ukuran file serupa, memori yang digunakan selama inferensi bervariasi.
Kuantisasi menggunakan lebih banyak memori daripada serving. Pantau RAM sistem Anda selama proses berlangsung.

Perbandingan Model (W4A16): • Phi-3.5-mini: 2.27 GB | 68.7 tok/s • Llama-3.2-3B: 2.26 GB | 66.0 tok/s • VibeThinker-3B: 2.07 GB | 43.9 tok/s

Ketiga model tersebut menangani matematika dasar dan logika bilangan prima dengan benar setelah kuantisasi.

Sumber: https://dev.to/syedazeez/quantizing-three-models-to-fit-a-6-gb-laptop-gpu-and-the-one-that-wouldnt-4pjl

Komunitas belajar opsional: https://t.me/GyaanSetuAi

Kuantisasi Model pada GPU Laptop 6 GB

Continue reading

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗮 𝟮𝟳𝟬𝗠 𝗠𝗼𝗱𝗲𝗹 𝗼𝗻 𝗠𝘆 𝗟𝗮𝗽𝘁𝗼𝗽