𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗶𝗻𝗴 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗮 𝟲 𝗚𝗕 𝗟𝗮𝗽𝘁𝗼𝗽 𝗚𝗣𝗨

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial৪ দিন আগে1min read

একটি ৬ জিবি ল্যাপটপ জিপিইউতে মডেল কোয়ান্টাইজেশন

আমি একটি RTX 3050 ল্যাপটপ জিপিইউতে (GPU) লার্জ ল্যাঙ্গুয়েজ মডেলগুলো চালানোর চেষ্টা করেছি। এই কার্ডটিতে মাত্র ৬ জিবি VRAM রয়েছে। আমি দেখতে চেয়েছিলাম কোন মডেলগুলো ৪-বিট কোয়ান্টাইজেশনে (4-bit quantization) কাজ করে এবং কোনগুলো ব্যর্থ হয়।

আমি তিনটি মডেল কোয়ান্টাইজ করার জন্য একটি মাত্র স্ক্রিপ্ট ব্যবহার করেছি:

Phi-3.5-mini (3.8B)
Llama-3.2-3B
Qwen2.5-3B (VibeThinker)

ফলাফলসমূহ: Phi এবং Llama ভালোভাবে কাজ করেছে। Phi মডেলটি ৩৪ মিনিটে ৭.৬ জিবি থেকে ২.২ জিবি-তে নেমে এসেছে। Llama এবং VibeThinker-ও একই রকম ফলাফল দেখিয়েছে। এই মডেলগুলো সহজেই ফিট হয়েছে।

এরপর আমি Qwen2.5-7B চেষ্টা করেছি। এটি ব্যর্থ হয়েছে। 'Out of Memory' এরর (error) আসার কারণে প্রসেসটি দ্বিতীয় লেয়ারেই ক্র্যাশ করেছে।

কেন এটি ব্যর্থ হলো: GPTQ কোয়ান্টাইজেশন প্রতিটি লেয়ারের জন্য একটি Hessian matrix তৈরি করে। একটি 7B মডেলের জন্য, এই গাণিতিক প্রক্রিয়ায় ৬ জিবি কার্ডের ক্ষমতার চেয়ে বেশি মেমরি প্রয়োজন হয়। আমি বেশ কিছু সমাধান চেষ্টা করেছি:

ছোট ক্যালিব্রেশন ডেটাসেট (Smaller calibration datasets): কোনো পরিবর্তন হয়নি।
CPU-তে Hessian অফলোডিং (Offloading Hessians to CPU): এটি কিছুটা বেশি সময় ধরে চললেও শেষ পর্যন্ত ক্র্যাশ করেছে।
GPTQ-এর পরিবর্তে AWQ ব্যবহার: এটি একই স্থানে ক্র্যাশ করেছে।
শুধুমাত্র CPU ব্যবহার: এটি কাজ করে কিন্তু অত্যন্ত ধীরগতির। প্রতিটি লেয়ারের জন্য প্রায় ১৬ মিনিট সময় লাগে।

ছোট জিপিইউ-এর জন্য মূল বিষয়গুলো:

মডেলের আকারের ৩ গুণ হ্রাস আশা করতে পারেন।
জিপিইউ কোয়ান্টাইজেশনের জন্য ৩ থেকে ৪ বিলিয়ন প্যারামিটার সীমার লক্ষ্য রাখুন।
আপনার KV বাজেট খেয়াল রাখুন। ফাইলের আকার একই হলেও, ইনফারেন্সের (inference) সময় ব্যবহৃত মেমরি ভিন্ন হতে পারে।
সার্ভিং-এর চেয়ে কোয়ান্টাইজেশনে বেশি মেমরি ব্যবহৃত হয়। প্রক্রিয়া চলাকালীন আপনার সিস্টেম র‍্যাম (RAM) মনিটর করুন।

মডেল তুলনা (W4A16): • Phi-3.5-mini: 2.27 GB | 68.7 tok/s • Llama-3.2-3B: 2.26 GB | 66.0 tok/s • VibeThinker-3B: 2.07 GB | 43.9 tok/s

কোয়ান্টাইজেশনের পর তিনটি মডেলই মৌলিক গণিত এবং মৌলিক সংখ্যার (prime number) লজিক সঠিকভাবে সমাধান করতে পেরেছে।

উৎস: https://dev.to/syedazeez/quantizing-three-models-to-fit-a-6-gb-laptop-gpu-and-the-one-that-wouldnt-4pjl

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗶𝗻𝗴 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗮 𝟲 𝗚𝗕 𝗟𝗮𝗽𝘁𝗼𝗽 𝗚𝗣𝗨

Continue reading

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

২০০৮ জিয়ঁ-এ ৩২বি এলএলএম: ভিরামের চেয়ে র‍্যাম বেশি গুরুত্বপূর্ণ

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗮 𝟮𝟳𝟬𝗠 𝗠𝗼𝗱𝗲𝗹 𝗼𝗻 𝗠𝘆 𝗟𝗮𝗽𝘁𝗼𝗽