আমি MTP TPS-এর পেছনে ছোটা বন্ধ করেছি এবং একটি লোকাল ২৭বি (27B) এজেন্ট পেয়েছি যা ২৪জিবি (24GB) VRAM-এ কাজ করে
আমি সিঙ্গেল প্রম্পট বেঞ্চমার্ক নিয়ে মাথা ঘামাই না।
আমি লুপ (loop) নিয়ে ভাবি।
একটি কোডিং এজেন্টের ঘণ্টার পর ঘণ্টা কাজ করার প্রয়োজন হয়। এর এডিট, টার্মিনাল কল, রিট্রাই এবং ক্রমবর্ধমান কনটেক্সট সামলানোর ক্ষমতা থাকতে হয়। যদি মডেলটি দশটি প্রম্পটের পরেই ব্যর্থ হয়ে যায়, তবে সেটি অকেজো।
আমি দেখতে চেয়েছিলাম যে একটি মাত্র ২৪জিবি (24GB) GPU-তে আমি একটি ২৭বি (27B) মডেল চালাতে পারি কি না। আমি Qwopus3.6-27B-v2 পরীক্ষা করেছি এবং একটি নতুন ভার্সন তৈরি করেছি: XReyRobert/Qwopus3.6-27B-v2-GPTQ-Pro-v1।
একটি স্থিতিশীল ২৪জিবি (24GB) এজেন্ট লুপের জন্য আমার সেটআপটি হলো:
- মডেল: Qwopus3.6-27B GPTQ-Pro 4-bit
- ইঞ্জিন: vLLM with GPTQ-Marlin
- কনটেক্সট: 131k tokens
- KV Cache: FP8 (fp8_e5m2)
- স্ট্র্যাটেজি: Prefix caching সক্রিয় করা আছে
- কনস্ট্রেইন্ট: max_num_seqs=1
কেন max_num_seqs=1?
একটি মাত্র ২৪জিবি (24GB) কার্ডে প্যারালেলিজম (parallelism) বিনামূল্যে পাওয়া যায় না। আপনি যদি একাধিক রিকোয়েস্ট চালান, তবে সেগুলো মেমরির জন্য লড়াই করে। আমি চাই একটি রিকোয়েস্ট যেন পরিষ্কারভাবে শেষ হয়। আমি দুটি ত্রুটিপূর্ণ উত্তরের চেয়ে একটি দরকারী উত্তর পাওয়াকে বেশি গুরুত্ব দিই।
আমি স্পেকুলেটিভ ডিকোডিং (speculative decoding - MTP) ও বাদ দিয়েছি। একটি মাত্র 3090 কার্ডে, দীর্ঘ কনটেক্সটের ক্ষেত্রে এন্ড-টু-এন্ড (end-to-end) গতি না বাড়িয়ে MTP বরং মেমরি প্রেশার এবং জটিলতা বাড়িয়েছিল।
আসল মেট্রিক্স যা গুরুত্বপূর্ণ:
- Prefix cache hit ratio: ~83%
- গড় TTFT: ~5.7s (33k tokens-এ)
- Prefill throughput: ~1917 tok/s
- Decode speed: ~43 tok/s
যখন prefix cache হিট করে, তখন আপনার ল্যাটেন্সি (latency) কমে যায়। যখন আপনি টাস্ক পরিবর্তন করেন, তখন ক্যাশ 'কোল্ড' (cold) হয়ে যায় এবং ল্যাটেন্সি বেড়ে যায়। এটি স্বাভাবিক। লক্ষ্য হলো টাস্ক স্থিতিশীল হওয়ার পর পুনরায় উচ্চ ক্যাশ রিউজ (cache reuse) নিশ্চিত করা।
আপনি যদি কেবল একটি প্রম্পট পরীক্ষা করেন, তবে আপনি ভুল জিনিস পরীক্ষা করছেন। কোডিং এজেন্টের ক্ষেত্রে, আপনাকে দীর্ঘমেয়াদী স্থিতিশীলতা (long-run stability) পরীক্ষা করতে হবে।
আপনি কি একটি মাত্র GPU-তে এজেন্ট লুপ চালাচ্ছেন? KV cache বা prefix caching-এর জন্য আপনি কী কী কৌশল ব্যবহার করেন?
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi