𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Translated for your language. Read the original.

AI-assisted draft.

ಮೊನ್ನೆ2min read

𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

ನೀವು 24GB GPU ಮೇಲೆ ಲೋಕಲ್ ಕೋಡಿಂಗ್ ಏಜೆಂಟ್ ಅನ್ನು ರನ್ ಮಾಡಲು ಬಯಸುತ್ತೀರಿ. ನಿಮಗೆ ಸ್ಥಿರತೆ (stability) ಬೇಕು. ನಿಮಗೆ ದೀರ್ಘವಾದ ಸಂದರ್ಭ (long context) ಬೇಕು. ನೀವು ಕ್ರ್ಯಾಶ್‌ಗಳನ್ನು ತಪ್ಪಿಸಬೇಕಾಗುತ್ತದೆ.

ಈ ಸೆಟಪ್ vLLM ಮೂಲಕ Qwen3.6-27B-GPTQ-Pro-4bit ಅನ್ನು ಬಳಸುತ್ತದೆ. ನಾನು ಕೇವಲ ಪಠ್ಯದ (text) ಮೇಲೆ ಮಾತ್ರ ಗಮನ ಹರಿಸುತ್ತೇನೆ. ಈ ನಿರ್ದಿಷ್ಟ ಗುರಿಯთვის ಮಲ್ಟಿಮೋಡಲ್ ಮಾಡೆಲ್‌ಗಳು ಅತಿಯಾದ ಮೆಮೊರಿಯನ್ನು ಬಳಸುತ್ತವೆ.

The Strategy: • ಒಂದು ಲೋಕಲ್ ಕೋಡಿಂಗ್ ಏಜೆಂಟ್ ಬಳಸಿ. • ಎಲ್ಲಾ ಚೈಲ್ಡ್ ಏಜೆಂಟ್‌ಗಳನ್ನು (child agents) ನಿಷ್ಕ್ರಿಯಗೊಳಿಸಿ. • ಸೈಡ್ ಟಾಸ್ಕ್‌ಗಳು ಮೆಮೊರಿಯನ್ನು ಬಳಸದಂತೆ ತಡೆಯಿರಿ. • ಕೇವಲ ವೇಗಕ್ಕಿಂತ ಸ್ಥಿರವಾದ ಸೆಷನ್‌ಗಳಿಗೆ (stable sessions) ಆದ್ಯತೆ ನೀಡಿ.

The vLLM Configuration: gptq_marlin quantization ನೊಂದಿಗೆ vLLM ಅನ್ನು ರನ್ ಮಾಡಿ. ಇದು RTX 3090 ಮೇಲೆ ದೀರ್ಘ ಸಂದರ್ಭ (long context) ಮತ್ತು ಪ್ರಿಫಿಕ್ಸ್ ಕ್ಯಾಷಿಂಗ್ (prefix caching) ಗಾಗಿ ಉತ್ತಮ ಸಮತೋಲನವನ್ನು ನೀಡುತ್ತದೆ.

Key flags to use:

--max-num-seqs 1: ಇದು ಅತ್ಯಗತ್ಯ. ಪ್ಯಾರಲಲಿಸಂ (Parallelism) ನಿಮ್ಮ ಮುಖ್ಯ ಕಾರ್ಯದಿಂದ KV cache ಅನ್ನು ಕಸಿದುಕೊಳ್ಳುತ್ತದೆ. ಎರಡು ವಿಫಲವಾದ ವಿನಂತಿಗಳಿಗಿಂತ ಒಂದು ಯಶಸ್ವಿ ವಿನಂತಿಯನ್ನು ನಾನು ಬಯಸುತ್ತೇನೆ.
--max-model-len 131072: ಇದು ಬೃಹತ್ ಸಂದರ್ಭವನ್ನು (massive context) ಅನುಮತಿಸುತ್ತದೆ. ನೀವು ಮೆಮೊರಿ ಎರ್‌ರರ್‌ಗಳನ್ನು ಎದುರಿಸಿದರೆ, ಇದನ್ನು 110k ಅಥವಾ 80k ಗೆ ಇಳಿಸಿ.
--enable-prefix-caching: ಇದು ಪುನರಾವರ್ತಿತ ದೀರ್ಘ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು (long prompts) ಹೆಚ್ಚು ವೇಗವಾಗಿಸುತ್ತದೆ.
--language-model-only: VRAM ಉಳಿಸಲು ಇದನ್ನು ಸರಳವಾಗಿಡಿ.

Hermes Settings: Hermes ಅನ್ನು ನಿಮ್ಮ vLLM ಎಂಡ್‌ಪಾಯಿಂಟ್‌ಗೆ (endpoint) ಪಾಯಿಂಟ್ ಮಾಡಿ. ಉತ್ತಮ ಫಲಿತಾಂಶಗಳಿಗಾಗಿ ಈ ನಿರ್ದಿಷ್ಟ ಸೆಟ್ಟಿಂಗ್‌ಗಳನ್ನು ಬಳಸಿ: • Thinking ಅನ್ನು ಎನೇಬಲ್ ಮಾಡಿ ಮತ್ತು ಅದನ್ನು ಉಳಿಸಿಕೊಳ್ಳಿ (preserve). • ದೀರ್ಘವಾದ ರಿಕ್ವೆಸ್ಟ್ ಟೈಮ್‌ಔಟ್ (request timeout) ಅನ್ನು ಸೆಟ್ ಮಾಡಿ. 1800 ಸೆಕೆಂಡ್‌ಗಳನ್ನು ಬಳಸಿ. ದೊಡ್ಡ ಸಂದರ್ಭಗಳನ್ನು ಪ್ರಿಫಿಲ್ (prefill) ಮಾಡಲು ಸಮಯ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. • ಡೆಲಿಗೇಶನ್ (delegation) ಮತ್ತು ಚೈಲ್ಡ್ ಏಜೆಂಟ್‌ಗಳನ್ನು ನಿಷ್ಕ್ರಿಯಗೊಳಿಸಿ. • ಉತ್ತರಗಳು ಅರ್ಧಕ್ಕೆ ನಿಲ್ಲದಂತೆ ತಡೆಯಲು (truncated answers), ಕಟ್ಟುನಿಟ್ಟಾದ max_tokens ಮಿತಿಗಳನ್ನು ತೆಗೆದುಹಾಕಿ.

Why this works: ಪ್ರಿಫಿಕ್ಸ್ ಕ್ಯಾಷಿಂಗ್ (Prefix caching) ಎಂಬುದು ಮ್ಯಾಜಿಕ್ ಅಲ್ಲ. ಇದು ಒಂದು ಆಪ್ಟಿಮೈಸೇಶನ್ (optimization). ನಿಮ್ಮ ಇನ್‌ಪುಟ್‌ಗಳು ಸರಳ ಮತ್ತು ಪುನರಾವರ್ತಿತವಾಗಿದ್ದರೆ, ಮಾಡೆಲ್ ಪ್ರತಿ ಬಾರಿಯೂ ಪೂರ್ಣ ಪ್ರಿಫಿಲ್ ವೆಚ್ಚವನ್ನು (prefill cost) ಪಾವತಿಸುವುದನ್ನು ನಿಲ್ಲಿಸುತ್ತದೆ.

My results on 24GB VRAM: • ಸಣ್ಣ ಪ್ರಾಂಪ್ಟ್ (41 ಟೋಕನ್‌ಗಳು): 0.29s TTFT. • ದೊಡ್ಡ ಪ್ರಾಂಪ್ಟ್ (41,985 ಟೋಕನ್‌ಗಳು): 38.6s TTFT. • ಕ್ಯಾಶ್ ಮಾಡಿದ ಪ್ರಾಂಪ್ಟ್ (41,985 ಟೋಕನ್‌ಗಳು): 1.59s TTFT.

ಮಾಡೆಲ್ ಅಡಚಣೆಯಲ್ಲ (bottleneck). ನಿಮ್ಮ ಸರ್ವಿಂಗ್ ಶಿಸ್ತೇ ಅಡಚಣೆಯಾಗಿದೆ. ನಿಮ್ಮ ಸಂದರ್ಭದ ಗಾತ್ರ (context size), ವಿನಂತಿಗಳ ಅನುಕ್ರಮ (request sequence) ಮತ್ತು ನಿಮ್ಮ ಏಕಕಾಲಿಕ ಪ್ರಕ್ರಿಯೆಗಳನ್ನು (concurrency) ನಿಯಂತ್ರಿಸಿ.

ಮಾಡೆಲ್ ಒಂದು ಪ್ರಾಂಪ್ಟ್‌ಗೆ ಉತ್ತರಿಸುತ್ತದೆಯೇ ಎಂದು ಪರೀಕ್ಷಿಸುವುದನ್ನು ನಿಲ್ಲಿಸಿ. ಏಜೆಂಟ್ ಒಂದು ಲೂಪ್‌ನಲ್ಲಿ (loop) ಬದುಕುಳಿಯುತ್ತದೆಯೇ ಎಂದು ಪರೀಕ್ಷಿಸಿ.

Source: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

Optional learning community: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Continue reading

Llama.cpp ಈಗ vLLM ವೇಗಕ್ಕೆ ಸಮನಾಗಿದೆ

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

ಒಂದು GPU ಮೇಲೆ ಎರಡು ಮಾಡೆಲ್‌ಗಳನ್ನು ಚಲಾಯಿಸುವುದು: ಲೋಕಲ್ LLMಗಳ ಹಿಂದಿರುವ ಗಣಿತ

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻