𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

Translated for your language. Read the original.

AI-assisted draft.

গত পরশু1min read

আমি MTP TPS-এর পেছনে ছোটা বন্ধ করেছি এবং একটি লোকাল ২৭বি (27B) এজেন্ট পেয়েছি যা ২৪জিবি (24GB) VRAM-এ কাজ করে

আমি সিঙ্গেল প্রম্পট বেঞ্চমার্ক নিয়ে মাথা ঘামাই না।

আমি লুপ (loop) নিয়ে ভাবি।

একটি কোডিং এজেন্টের ঘণ্টার পর ঘণ্টা কাজ করার প্রয়োজন হয়। এর এডিট, টার্মিনাল কল, রিট্রাই এবং ক্রমবর্ধমান কনটেক্সট সামলানোর ক্ষমতা থাকতে হয়। যদি মডেলটি দশটি প্রম্পটের পরেই ব্যর্থ হয়ে যায়, তবে সেটি অকেজো।

আমি দেখতে চেয়েছিলাম যে একটি মাত্র ২৪জিবি (24GB) GPU-তে আমি একটি ২৭বি (27B) মডেল চালাতে পারি কি না। আমি Qwopus3.6-27B-v2 পরীক্ষা করেছি এবং একটি নতুন ভার্সন তৈরি করেছি: XReyRobert/Qwopus3.6-27B-v2-GPTQ-Pro-v1।

একটি স্থিতিশীল ২৪জিবি (24GB) এজেন্ট লুপের জন্য আমার সেটআপটি হলো:

মডেল: Qwopus3.6-27B GPTQ-Pro 4-bit
ইঞ্জিন: vLLM with GPTQ-Marlin
কনটেক্সট: 131k tokens
KV Cache: FP8 (fp8_e5m2)
স্ট্র্যাটেজি: Prefix caching সক্রিয় করা আছে
কনস্ট্রেইন্ট: max_num_seqs=1

কেন max_num_seqs=1?

একটি মাত্র ২৪জিবি (24GB) কার্ডে প্যারালেলিজম (parallelism) বিনামূল্যে পাওয়া যায় না। আপনি যদি একাধিক রিকোয়েস্ট চালান, তবে সেগুলো মেমরির জন্য লড়াই করে। আমি চাই একটি রিকোয়েস্ট যেন পরিষ্কারভাবে শেষ হয়। আমি দুটি ত্রুটিপূর্ণ উত্তরের চেয়ে একটি দরকারী উত্তর পাওয়াকে বেশি গুরুত্ব দিই।

আমি স্পেকুলেটিভ ডিকোডিং (speculative decoding - MTP) ও বাদ দিয়েছি। একটি মাত্র 3090 কার্ডে, দীর্ঘ কনটেক্সটের ক্ষেত্রে এন্ড-টু-এন্ড (end-to-end) গতি না বাড়িয়ে MTP বরং মেমরি প্রেশার এবং জটিলতা বাড়িয়েছিল।

আসল মেট্রিক্স যা গুরুত্বপূর্ণ:

Prefix cache hit ratio: ~83%
গড় TTFT: ~5.7s (33k tokens-এ)
Prefill throughput: ~1917 tok/s
Decode speed: ~43 tok/s

যখন prefix cache হিট করে, তখন আপনার ল্যাটেন্সি (latency) কমে যায়। যখন আপনি টাস্ক পরিবর্তন করেন, তখন ক্যাশ 'কোল্ড' (cold) হয়ে যায় এবং ল্যাটেন্সি বেড়ে যায়। এটি স্বাভাবিক। লক্ষ্য হলো টাস্ক স্থিতিশীল হওয়ার পর পুনরায় উচ্চ ক্যাশ রিউজ (cache reuse) নিশ্চিত করা।

আপনি যদি কেবল একটি প্রম্পট পরীক্ষা করেন, তবে আপনি ভুল জিনিস পরীক্ষা করছেন। কোডিং এজেন্টের ক্ষেত্রে, আপনাকে দীর্ঘমেয়াদী স্থিতিশীলতা (long-run stability) পরীক্ষা করতে হবে।

আপনি কি একটি মাত্র GPU-তে এজেন্ট লুপ চালাচ্ছেন? KV cache বা prefix caching-এর জন্য আপনি কী কী কৌশল ব্যবহার করেন?

Source: https://dev.to/xreyrobertibm/i-stopped-chasing-mtp-tps-and-got-a-local-27b-agent-that-actually-stayed-usable-on-24gb-vram-5897

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

𝗜 𝗦𝘁𝗼𝗽𝗽𝗲𝗱 𝗖𝗵𝗮𝘀𝗶𝗻𝗴 𝗠𝗧𝗣 𝗧𝗣𝗦 𝗔𝗻𝗱 𝗚𝗼𝘁 𝗔 𝗟𝗼𝗰𝗮𝗹 𝟮𝟳𝗕 𝗔𝗴𝗲𝗻𝘁 𝗧𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀 𝗼𝗻 𝟮

Continue reading

Llama.cpp এখন vLLM-এর গতির সমতুল্য

𝗤𝘄𝗲𝗻 𝟯.𝟲 𝟮𝟳𝗕: 𝗙𝗿𝗼𝗻𝘁𝗶𝗲𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗼𝗻 𝗮 𝟮𝟰𝗚𝗕 𝗚𝗣𝗨

একটি জিপিইউতে দুটি মডেল চালানো: লোকাল LLM-এর পেছনের গণিত

𝗤𝘄𝗲𝗻𝟯.𝟲 𝟮𝟳𝗕 + 𝘃𝗟𝗟𝗠 + 𝗛𝗲𝗿𝗺𝗲𝘀 𝗼𝗻 𝟮𝟰𝗚𝗕 𝗩𝗥𝗔𝗠

একটি ম্যাক মিনিতে লোকাল কোডিং এজেন্ট চালানো