Qwen 3.6 27B: The Engineer's Guide to Local AI

Translated for your language. Read the original.

AI-assisted draft.

Qwen 3.6 27B: The Engineer's Guide to Local AI

Qwen 3.6 27B: লোকাল AI-এর জন্য ইঞ্জিনিয়ারদের গাইড

একটি 27B মডেল মাত্র একটি 397B মডেলকে হারিয়ে দিয়েছে।

এটি কোনো ছোট জয় নয়। এটি লোকাল AI-এর জন্য একটি বিশাল পরিবর্তন।

পুরানো Qwen 3.5 397B মডেলটির জন্য 807 GB স্টোরেজ প্রয়োজন। এটি চালানোর জন্য আপনার একটি multi-GPU সার্ভার লাগবে।

নতুন Qwen 3.6 27B মডেলটির সাইজ মাত্র 55.6 GB। 8-bit ফরম্যাটে এটি মাত্র 28 GB জায়গা নেয়। আপনি এটি একটি মাত্র MacBook M5 Max-এ চালাতে পারবেন।

আকারের পার্থক্য থাকা সত্ত্বেও, 27B মডেলটি মূল বেঞ্চমার্কে জয়ী হয়েছে:

• SWE-bench Verified: 77.2% (397B মডেলের 76.2%-কে ছাড়িয়ে গেছে) • AIME 2026: 94.1% • GPQA Diamond: 87.8% (Claude 4.5 Opus-কে ছাড়িয়ে গেছে)

এটি কীভাবে কাজ করে?

এর আর্কিটেকচারে একটি hybrid attention ডিজাইন ব্যবহার করা হয়েছে। এতে linear এবং quadratic attention লেয়ারের অনুপাত হলো 3:1।

48টি লেয়ার Gated DeltaNet (Linear attention) ব্যবহার করে। এটি দ্রুত এবং মেমরি সাশ্রয়ী।
16টি লেয়ার Gated Attention (Quadratic attention) ব্যবহার করে। এটি নির্ভুলতা প্রদান করে।

এই প্যাটার্নটি মডেলটিকে স্ট্যান্ডার্ড ট্রান্সফরমারগুলোর বিশাল কম্পিউট কস্ট ছাড়াই দীর্ঘ কনটেক্সট (long contexts) হ্যান্ডেল করতে সাহায্য করে।

আরেকটি সাফল্য হলো Multi-Token Prediction (MTP)। এই ফিচারটি মডেলটিকে একসাথে ৩ থেকে ৪টি টোকেন প্রেডিক্ট করতে সাহায্য করে।

Apple M5 Max হার্ডওয়্যারে, MTP গতি প্রতি সেকেন্ডে ১৮টি টোকেন থেকে বাড়িয়ে ৩২টি টোকেনে নিয়ে আসে। এটি থ্রুপুট (throughput)-এ ৭৭% বৃদ্ধি।

কীভাবে এটি লোকালি ডেপ্লয় করবেন:

আপনার নিজস্ব হার্ডওয়্যারে মডেলটি চালানোর জন্য llama.cpp ব্যবহার করুন।

টুলটি ইনস্টল করুন: brew install llama.cpp
সর্বোচ্চ গতির জন্য MTP এনাবল করে সার্ভারটি চালান: llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
আপনার বিদ্যমান টুলগুলোকে (যেমন Cursor বা Python স্ক্রিপ্ট) http://localhost:8080/v1-এ পয়েন্ট করুন।

AI-এর অর্থনীতি বদলে গেছে।

Claude বা GPT-5-এর মতো API ব্যবহার করলে প্রতিবার প্রম্পট পাঠানোর জন্য টাকা খরচ করতে হয়। লোকাল AI-তে প্রতি টোকেনের খরচ শূন্য। এটি ১০০% প্রাইভেসির নিশ্চয়তা দেয়। এটি কোনো থার্ড-পার্টি প্রোভাইডারের ওপর নির্ভর করে না, যারা যেকোনো সময় তাদের নিয়ম বা দাম পরিবর্তন করতে পারে।

লোকাল AI এখন আর কোনো আপস নয়। এটি একটি প্রফেশনাল টুল।

উৎস: https://dev.to/monuminu/qwen-36-27b-how-a-27b-dense-model-beats-a-397b-giant-the-engineers-complete-local-ai-4m36

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

Qwen 3.6 27B: The Engineer's Guide to Local AI

Continue reading

Qwen3 বনাম DeepSeek R1: ২০২৬ সালে কোন মডেলটি জিতবে?

লোকাল এআই: কীভাবে লোকালি ওপেন সোর্স মডেল চালানো যায়