𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Translated for your language. Read the original.

AI-assisted draft.

গত পরশু2min read

𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 (২৪জিবি VRAM-এ)

আপনি একটি ২৪জিবি (24GB) GPU-তে একটি লোকাল কোডিং এজেন্ট চালাতে চান। আপনার স্থায়িত্ব (stability) প্রয়োজন। আপনার দীর্ঘ কনটেক্সট (long context) প্রয়োজন। আপনাকে ক্র্যাশ এড়াতে হবে।

এই সেটআপটি vLLM-এর মাধ্যমে Qwen3.6-27B-GPTQ-Pro-4bit ব্যবহার করে। আমি শুধুমাত্র টেক্সটের ওপর গুরুত্ব দিচ্ছি। মাল্টিমোডাল মডেলগুলো এই নির্দিষ্ট লক্ষ্যের জন্য অনেক বেশি মেমরি খরচ করে।

কৌশল (The Strategy): • একটি লোকাল কোডিং এজেন্ট ব্যবহার করুন। • সমস্ত চাইল্ড এজেন্ট (child agents) ডিজেবল করুন। • সাইড টাস্কগুলো যাতে মেমরি দখল করতে না পারে তা নিশ্চিত করুন। • গতির চেয়ে স্থিতিশীল সেশনকে (stable sessions) অগ্রাধিকার দিন।

vLLM কনফিগারেশন: gptq_marlin কোয়ান্টাইজেশন (quantization) সহ vLLM চালান। এটি একটি RTX 3090-এ দীর্ঘ কনটেক্সট এবং প্রিফিক্স ক্যাশিংয়ের (prefix caching) জন্য সেরা ভারসাম্য প্রদান করে।

ব্যবহারের জন্য মূল ফ্ল্যাগসমূহ (Key flags):

--max-num-seqs 1: এটি অত্যন্ত গুরুত্বপূর্ণ। প্যারালেলিজম (Parallelism) আপনার মূল টাস্ক থেকে KV ক্যাশ (KV cache) কেড়ে নেয়। আমি দুটি ব্যর্থ রিকোয়েস্টের চেয়ে একটি সফল রিকোয়েস্টকে বেশি পছন্দ করি।
--max-model-len 131072: এটি একটি বিশাল কনটেক্সট ব্যবহারের সুযোগ দেয়। যদি মেমরি এরর (memory error) পান, তবে এটি কমিয়ে 110k বা 80k করে দিন।
--enable-prefix-caching: এটি বারবার দীর্ঘ প্রম্পট ব্যবহারের গতি অনেক বাড়িয়ে দেয়।
--language-model-only: VRAM বাঁচাতে এটিকে সহজ রাখুন।

Hermes সেটিংস: Hermes-কে আপনার vLLM এন্ডপয়েন্টে (endpoint) নির্দেশ করুন। সেরা ফলাফলের জন্য এই নির্দিষ্ট সেটিংসগুলো ব্যবহার করুন: • thinking এনাবল করুন এবং thinking সংরক্ষণ করুন। • একটি দীর্ঘ রিকোয়েস্ট টাইমআউট (request timeout) সেট করুন। 1800 সেকেন্ড ব্যবহার করুন। বড় কনটেক্সট প্রিফিল (prefill) হতে সময় নেয়। • ডেলিগেশন (delegation) এবং চাইল্ড এজেন্ট ডিজেবল করুন। • উত্তর অসম্পূর্ণ হওয়া রোধ করতে কঠোর max_tokens সীমা সরিয়ে ফেলুন।

এটি কেন কাজ করে: প্রিফিক্স ক্যাশিং (Prefix caching) কোনো জাদু নয়। এটি একটি অপ্টিমাইজেশন (optimization)। আপনি যদি আপনার ইনপুটগুলোকে একই ধরণের এবং পুনরাবৃত্তিমূলক রাখেন, তবে মডেলটি প্রতিবার পূর্ণ প্রিফিল খরচ (prefill cost) করা বন্ধ করে দেয়।

২৪জিবি VRAM-এ আমার ফলাফল: • ছোট প্রম্পট (41 tokens): 0.29s TTFT। • বড় প্রম্পট (41,985 tokens): 38.6s TTFT। • ক্যাশ করা প্রম্পট (41,985 tokens): 1.59s TTFT।

মডেলটি এখানে বাধা (bottleneck) নয়। বাধা হলো আপনার সার্ভিং ডিসিপ্লিন (serving discipline)। আপনার কনটেক্সট সাইজ, রিকোয়েস্ট সিকোয়েন্স এবং কনকারেন্সি (concurrency) নিয়ন্ত্রণ করুন।

একটি মডেল একটি প্রম্পটের উত্তর দিতে পারে কি না তা পরীক্ষা করা বন্ধ করুন। এজেন্টটি একটি লুপ (loop) টিকে থাকতে পারে কি না তা পরীক্ষা করুন।

উৎস: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

Continue reading

Llama.cpp এখন vLLM-এর গতির সমতুল্য

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

একটি জিপিইউতে দুটি মডেল চালানো: লোকাল LLM-এর পেছনের গণিত

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

𝗞𝗩 𝗖𝗮𝗰𝗵𝗲 𝗮𝗻𝗱 𝗣𝗮𝗴𝗲𝗱𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻: 𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗦𝗲𝗿𝘃𝗲𝗿 𝗦𝗹𝗼𝘄𝘀 𝗗𝗼𝘄𝗻