𝗤𝘄𝗲𝗻𝟯.𝟲-𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 (২৪জিবি VRAM-এ)

আপনি একটি ২৪জিবি (24GB) GPU-তে একটি লোকাল কোডিং এজেন্ট চালাতে চান। আপনার স্থায়িত্ব (stability) প্রয়োজন। আপনার দীর্ঘ কনটেক্সট (long context) প্রয়োজন। আপনাকে ক্র্যাশ এড়াতে হবে।

এই সেটআপটি vLLM-এর মাধ্যমে Qwen3.6-27B-GPTQ-Pro-4bit ব্যবহার করে। আমি শুধুমাত্র টেক্সটের ওপর গুরুত্ব দিচ্ছি। মাল্টিমোডাল মডেলগুলো এই নির্দিষ্ট লক্ষ্যের জন্য অনেক বেশি মেমরি খরচ করে।

কৌশল (The Strategy): • একটি লোকাল কোডিং এজেন্ট ব্যবহার করুন। • সমস্ত চাইল্ড এজেন্ট (child agents) ডিজেবল করুন। • সাইড টাস্কগুলো যাতে মেমরি দখল করতে না পারে তা নিশ্চিত করুন। • গতির চেয়ে স্থিতিশীল সেশনকে (stable sessions) অগ্রাধিকার দিন।

vLLM কনফিগারেশন: gptq_marlin কোয়ান্টাইজেশন (quantization) সহ vLLM চালান। এটি একটি RTX 3090-এ দীর্ঘ কনটেক্সট এবং প্রিফিক্স ক্যাশিংয়ের (prefix caching) জন্য সেরা ভারসাম্য প্রদান করে।

ব্যবহারের জন্য মূল ফ্ল্যাগসমূহ (Key flags):

  • --max-num-seqs 1: এটি অত্যন্ত গুরুত্বপূর্ণ। প্যারালেলিজম (Parallelism) আপনার মূল টাস্ক থেকে KV ক্যাশ (KV cache) কেড়ে নেয়। আমি দুটি ব্যর্থ রিকোয়েস্টের চেয়ে একটি সফল রিকোয়েস্টকে বেশি পছন্দ করি।
  • --max-model-len 131072: এটি একটি বিশাল কনটেক্সট ব্যবহারের সুযোগ দেয়। যদি মেমরি এরর (memory error) পান, তবে এটি কমিয়ে 110k বা 80k করে দিন।
  • --enable-prefix-caching: এটি বারবার দীর্ঘ প্রম্পট ব্যবহারের গতি অনেক বাড়িয়ে দেয়।
  • --language-model-only: VRAM বাঁচাতে এটিকে সহজ রাখুন।

Hermes সেটিংস: Hermes-কে আপনার vLLM এন্ডপয়েন্টে (endpoint) নির্দেশ করুন। সেরা ফলাফলের জন্য এই নির্দিষ্ট সেটিংসগুলো ব্যবহার করুন: • thinking এনাবল করুন এবং thinking সংরক্ষণ করুন। • একটি দীর্ঘ রিকোয়েস্ট টাইমআউট (request timeout) সেট করুন। 1800 সেকেন্ড ব্যবহার করুন। বড় কনটেক্সট প্রিফিল (prefill) হতে সময় নেয়। • ডেলিগেশন (delegation) এবং চাইল্ড এজেন্ট ডিজেবল করুন। • উত্তর অসম্পূর্ণ হওয়া রোধ করতে কঠোর max_tokens সীমা সরিয়ে ফেলুন।

এটি কেন কাজ করে: প্রিফিক্স ক্যাশিং (Prefix caching) কোনো জাদু নয়। এটি একটি অপ্টিমাইজেশন (optimization)। আপনি যদি আপনার ইনপুটগুলোকে একই ধরণের এবং পুনরাবৃত্তিমূলক রাখেন, তবে মডেলটি প্রতিবার পূর্ণ প্রিফিল খরচ (prefill cost) করা বন্ধ করে দেয়।

২৪জিবি VRAM-এ আমার ফলাফল: • ছোট প্রম্পট (41 tokens): 0.29s TTFT। • বড় প্রম্পট (41,985 tokens): 38.6s TTFT। • ক্যাশ করা প্রম্পট (41,985 tokens): 1.59s TTFT।

মডেলটি এখানে বাধা (bottleneck) নয়। বাধা হলো আপনার সার্ভিং ডিসিপ্লিন (serving discipline)। আপনার কনটেক্সট সাইজ, রিকোয়েস্ট সিকোয়েন্স এবং কনকারেন্সি (concurrency) নিয়ন্ত্রণ করুন।

একটি মডেল একটি প্রম্পটের উত্তর দিতে পারে কি না তা পরীক্ষা করা বন্ধ করুন। এজেন্টটি একটি লুপ (loop) টিকে থাকতে পারে কি না তা পরীক্ষা করুন।

উৎস: https://dev.to/xreyrobertibm/qwen36-27b-vllm-hermes-on-24gb-vram-may-2026-recipe-5452

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi