𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗶𝗻𝗴 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗮 𝟲 𝗚𝗕 𝗟𝗮𝗽𝘁𝗼𝗽 𝗚𝗣𝗨

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial4 ದಿನಗಳ ಹಿಂದೆ1min read

ನಾನು RTX 3050 ಲ್ಯಾಪ್‌ಟಾಪ್ GPU ನಲ್ಲಿ ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳನ್ನು (large language models) ಅಳವಡಿಸಲು ಪ್ರಯತ್ನಿಸಿದೆ. ಈ ಕಾರ್ಡ್‌ನಲ್ಲಿ ಕೇವಲ 6 GB VRAM ಇದೆ. 4-bit ಕ್ವಾಂಟೈಸೇಶನ್‌ನೊಂದಿಗೆ ಯಾವ ಮಾಡೆಲ್‌ಗಳು ಕೆಲಸ ಮಾಡುತ್ತವೆ ಮತ್ತು ಯಾವುವು ವಿಫಲವಾಗುತ್ತವೆ ಎಂಬುದನ್ನು ನಾನು ನೋಡಲು ಬಯಸಿದೆ.

ನಾನು ಮೂರು ಮಾಡೆಲ್‌ಗಳನ್ನು ಕ್ವಾಂಟೈಸ್ ಮಾಡಲು ಒಂದೇ ಸ್ಕ್ರಿಪ್ಟ್ ಬಳಸಿದೆ:

Phi-3.5-mini (3.8B)
Llama-3.2-3B
Qwen2.5-3B (VibeThinker)

ಫಲಿತಾಂಶಗಳು: Phi ಮತ್ತು Llama ಉತ್ತಮವಾಗಿ ಕೆಲಸ ಮಾಡಿದವು. Phi 34 ನಿಮಿಷಗಳಲ್ಲಿ 7.6 GB ನಿಂದ 2.2 GB ಗೆ ಇಳಿಯಿತು. Llama ಮತ್ತು VibeThinker ಕೂಡ ಇದೇ ರೀತಿಯ ಹಾದಿಯನ್ನು ಅನುಸರಿಸಿದವು. ಈ ಮಾಡೆಲ್‌ಗಳು ಸುಲಭವಾಗಿ ಅಳವಡಿಕೆಯಾದವು.

ನಂತರ ನಾನು Qwen2.5-7B ಅನ್ನು ಪ್ರಯತ್ನಿಸಿದೆ. ಅದು ವಿಫಲವಾಯಿತು. 'Out of Memory' ದೋಷದೊಂದಿಗೆ (error) ಪ್ರಕ್ರಿಯೆಯು ಎರಡನೇ ಲೇಯರ್‌ನಲ್ಲಿ ಸ್ಥಗಿತಗೊಂಡಿತು (crash).

ಅದು ಏಕೆ ವಿಫಲವಾಯಿತು: GPTQ ಕ್ವಾಂಟೈಸೇಶನ್ ಪ್ರತಿ ಲೇಯರ್‌ಗಾಗಿ Hessian matrix ಅನ್ನು ನಿರ್ಮಿಸುತ್ತದೆ. 7B ಮಾಡೆಲ್‌ಗಾಗಿ, ಈ ಗಣಿತವು 6 GB ಕಾರ್ಡ್ ಒದಗಿಸುವതിಗಿಂತ ಹೆಚ್ಚಿನ ಮೆಮೊರಿಯನ್ನು ಬಯಸುತ್ತದೆ. ನಾನು ಹಲವಾರು ಪರಿಹಾರಗಳನ್ನು ಪ್ರಯತ್ನಿಸಿದೆ:

ಸಣ್ಣ ಕ್ಯಾಲಿಬ್ರೇಶನ್ ಡೇಟಾ ಸೆಟ್‌ಗಳು: ಯಾವುದೇ ಬದಲಾವಣೆ ಇಲ್ಲ.
Hessians ಅನ್ನು CPU ಗೆ ಆಫ್‌ಲೋಡ್ ಮಾಡುವುದು: ಇದು ಹೆಚ್ಚು ಸಮಯದವರೆಗೆ ಚಲಿಸಿತು ಆದರೆ ನಂತರವೂ ಕ್ರ್ಯಾಶ್ ಆಯಿತು.
GPTQ ಬದಲಿಗೆ AWQ ಬಳಸುವುದು: ಇದು ಅದೇ ಸ್ಥಳದಲ್ಲಿ ಕ್ರ್ಯಾಶ್ ಆಯಿತು.
ಕೇವಲ CPU ಬಳಸುವುದು: ಇದು ಕೆಲಸ ಮಾಡುತ್ತದೆ ಆದರೆ ತುಂಬಾ ನಿಧಾನವಾಗಿದೆ. ಇದು ಪ್ರತಿ ಲೇಯರ್‌ಗೆ ಸುಮಾರು 16 ನಿಮಿಷಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ.

ಸಣ್ಣ GPU ಗಳಿಗಾಗಿ ಪ್ರಮುಖ ಅಂಶಗಳು:

ಮಾಡೆಲ್ ಗಾತ್ರದಲ್ಲಿ 3x ಕಡಿತವನ್ನು ನಿರೀಕ್ಷಿಸಿ.
GPU ಕ್ವಾಂಟೈಸೇಶನ್‌ಗಾಗಿ 3 ರಿಂದ 4 ಬಿಲಿಯನ್ ಪ್ಯಾರಾಮೀಟರ್ ಮಿತಿಯನ್ನು ಗುರಿಯಾಗಿಡಿ.
ನಿಮ್ಮ KV ಬಜೆಟ್ ಅನ್ನು ಗಮನಿಸಿ. ಫೈಲ್ ಗಾತ್ರಗಳು ಒಂದೇ ಆಗಿದ್ದರೂ ಸಹ, ಇನ್ಫರೆನ್ಸ್ (inference) ಸಮಯದಲ್ಲಿ ಬಳಸುವ ಮೆಮೊರಿ ವ್ಯತ್ಯಾಸವಾಗುತ್ತದೆ.
ಸರ್ವಿಂಗ್ (serving) ಗಿಂತ ಕ್ವಾಂಟೈಸೇಶನ್ ಹೆಚ್ಚು ಮೆಮೊರಿಯನ್ನು ಬಳಸುತ್ತದೆ. ಪ್ರಕ್ರಿಯೆಯ ಸಮಯದಲ್ಲಿ ನಿಮ್ಮ ಸಿಸ್ಟಮ್ RAM ಅನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮಾಡಿ.

ಮಾಡೆಲ್ ಹೋಲಿಕೆ (W4A16): • Phi-3.5-mini: 2.27 GB | 68.7 tok/s • Llama-3.2-3B: 2.26 GB | 66.0 tok/s • VibeThinker-3B: 2.07 GB | 43.9 tok/s

ಕ್ವಾಂಟೈಸೇಶನ್ ನಂತರ ಮೂರೂ ಮಾಡೆಲ್‌ಗಳು ಮೂಲಭೂತ ಗಣಿತ ಮತ್ತು ಪ್ರೈಮ್ ನಂಬರ್ ಲಾಜಿಕ್ ಅನ್ನು ಸರಿಯಾಗಿ ನಿರ್ವಹಿಸಿದವು.

ಮೂಲ: https://dev.to/syedazeez/quantizing-three-models-to-fit-a-6-gb-laptop-gpu-and-the-one-that-wouldnt-4pjl

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi

𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗶𝗻𝗴 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗮 𝟲 𝗚𝗕 𝗟𝗮𝗽𝘁𝗼𝗽 𝗚𝗣𝗨

Continue reading

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗤𝘂𝗮𝗻𝘁𝗶𝘇𝗮𝘁𝗶𝗼𝗻 𝗳𝗼𝗿 𝗢𝗻 𝗗𝗲𝘃𝗶𝗰𝗲 𝗟𝗟𝗠𝘀

𝟯𝟮𝗕 𝗟𝗟𝗠 𝗼𝗻 𝗮 𝟮𝟬𝟬𝟴 𝗫𝗲𝗼𝗻: 𝗥𝗮𝗺 𝗠𝗮𝘁𝘁𝗲𝗿𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗩𝗥𝗔𝗠

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

𝗜 𝗙𝗶𝗻𝗲 𝗧𝘂𝗻𝗲𝗱 𝗮 𝟮𝟳𝟬𝗠 𝗠𝗼𝗱𝗲𝗹 𝗼𝗻 𝗠𝘆 𝗟𝗮𝗽𝘁𝗼𝗽