𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗶𝗻𝗴 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗮 𝟲 𝗚𝗕 𝗟𝗮𝗽𝘁𝗼𝗽 𝗚𝗣𝗨

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial4 రోజుల క్రితం1min read

నేను RTX 3050 లాప్‌టాప్ GPU పై లార్జ్ లాంగ్వేజ్ మోడల్స్‌ను (LLMs) ఉపయోగించడానికి ప్రయత్నించాను. ఈ కార్డ్‌లో కేవలం 6 GB VRAM మాత్రమే ఉంది. 4-bit క్వాంటైజేషన్‌తో ఏ మోడల్స్ పనిచేస్తాయి మరియు ఏవి విఫలమవుతాయో నేను చూడాలనుకున్నాను.

మూడు మోడల్స్‌ను క్వాంటైజ్ చేయడానికి నేను ఒకే స్క్రిప్ట్‌ను ఉపయోగించాను:

Phi-3.5-mini (3.8B)
Llama-3.2-3B
Qwen2.5-3B (VibeThinker)

ఫలితాలు: Phi మరియు Llama బాగా పనిచేసాయి. Phi 34 నిమిషాల్లో 7.6 GB నుండి 2.2 GBకి తగ్గింది. Llama మరియు VibeThinker కూడా అదే విధంగా మారాయి. ఈ మోడల్స్ సులభంగా సరిపోయాయి.

ఆ తర్వాత నేను Qwen2.5-7Bని ప్రయత్నించాను. అది విఫలమైంది. 'Out of Memory' ఎర్రర్‌తో ప్రక్రియ రెండవ లేయర్ వద్దే ఆగిపోయింది (crash అయింది).

అది ఎందుకు విఫలమైంది: GPTQ క్వాంటైజేషన్ ప్రతి లేయర్ కోసం ఒక Hessian మ్యాట్రిక్స్‌ను నిర్మిస్తుంది. 7B మోడల్ కోసం, ఈ గణిత ప్రక్రియకు 6 GB కార్డ్ అందించే దానికంటే ఎక్కువ మెమరీ అవసరమవుతుంది. నేను కొన్ని పరిష్కారాలను ప్రయత్నించాను:

చిన్న కాలిబ్రేషన్ డేటాసెట్‌లు: ఎటువంటి మార్పు లేదు.
Hessiansలను CPUకి ఆఫ్ లోడ్ చేయడం: ఇది కొంచెం ఎక్కువ సమయం పనిచేసింది కానీ చివరకు క్రాష్ అయింది.
GPTQ కి బదులుగా AWQ ఉపయోగించడం: ఇది కూడా అదే చోట క్రాష్ అయింది.
కేవలం CPU మాత్రమే ఉపయోగించడం: ఇది పనిచేస్తుంది కానీ చాలా నెమ్మదిగా ఉంటుంది. ప్రతి లేయర్‌కు సుమారు 16 నిమిషాలు పడుతుంది.

చిన్న GPUల కోసం ముఖ్యమైన విషయాలు:

మోడల్ పరిమాణం 3 రెట్లు తగ్గుతుందని ఆశించండి.
GPU క్వాంటైజేషన్ కోసం 3 నుండి 4 బిలియన్ పారామీటర్ల పరిమితిని లక్ష్యంగా పెట్టుకోండి.
మీ KV బడ్జెట్‌ను గమనించండి. ఫైల్ పరిమాణాలు ఒకేలా ఉన్నప్పటికీ, inference సమయంలో ఉపయోగించే మెమరీ మారుతూ ఉంటుంది.
సర్వింగ్ కంటే క్వాంటైజేషన్ ప్రక్రియలో ఎక్కువ మెమరీ అవసరమవుతుంది. ఈ ప్రక్రియ సమయంలో మీ సిస్టమ్ RAMని పర్యవేక్షించండి.

మోడల్ పోలిక (W4A16): • Phi-3.5-mini: 2.27 GB | 68.7 tok/s • Llama-3.2-3B: 2.26 GB | 66.0 tok/s • VibeThinker-3B: 2.07 GB | 43.9 tok/s

క్వాంటైజేషన్ తర్వాత మూడు మోడల్స్ ప్రాథమిక గణితం మరియు ప్రైమ్ నంబర్ లాజిక్‌ను సరిగ్గా నిర్వహించాయి.

మూలం: https://dev.to/syedazeez/quantizing-three-models-to-fit-a-6-gb-laptop-gpu-and-the-one-that-wouldnt-4pjl

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi

𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗶𝗻𝗴 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗮 𝟲 𝗚𝗕 𝗟𝗮𝗽𝘁𝗼𝗽 𝗚𝗣𝗨

Continue reading

Qwen 3.6 27B: 24GB GPU పై అత్యాధునిక కోడింగ్

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

2008 Xeon మీద 32B LLM: VRAM కంటే RAM ముఖ్యం

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗮 𝟮𝟳𝟬𝗠 𝗠𝗼𝗱𝗲𝗹 𝗼𝗻 𝗠𝘆 𝗟𝗮𝗽𝘁𝗼𝗽