DiffusionGemma 26B: প্যারালাল টেক্সট জেনারেশন
Google DeepMind DiffusionGemma 26B রিলিজ করেছে। এই মডেলটি স্ট্যান্ডার্ড অটোরিগ্রেসিভ (autoregressive) পদ্ধতির পরিবর্তে ডিসক্রিট ডিফিউশন (discrete diffusion) ব্যবহার করে।
GPT বা Llama-এর মতো বেশিরভাগ মডেল একটি সময়ে একটি করে টোকেন জেনারেট করে। প্রতিটি টোকেনের জন্য তাদের একটি সম্পূর্ণ পাস (pass) চালাতে হয়। এর ফলে লোকাল ব্যবহার বা রিয়েল-টাইম কাজের জন্য এগুলো ধীরগতির হয়ে পড়ে।
DiffusionGemma ভিন্নভাবে কাজ করে। এটি ২৫৬টি র্যান্ডম টোকেনের একটি ব্লক দিয়ে শুরু হয় এবং একাধিক পাসের মাধ্যমে সেগুলোকে রিফাইন (refine) করে।
কেন এটি গুরুত্বপূর্ণ:
• গতি: এটি একটি H100 GPU-তে প্রতি সেকেন্ডে ১,০০০ টোকেন পর্যন্ত পৌঁছাতে পারে। একই হার্ডওয়্যারে স্ট্যান্ডার্ড মডেলগুলো প্রতি সেকেন্ডে মাত্র ৭০ টোকেন পর্যন্ত পৌঁছাতে পারে। • দক্ষতা: ২৫৬টি টোকেনের জন্য ২৫৬টি পাসের পরিবর্তে, এর মাত্র প্রায় ১০টি পাসের প্রয়োজন হয়। • GPU ব্যবহার: এটি মেমরি ব্যান্ডউইথের চেয়ে কম্পিউট পাওয়ার (compute power) আরও কার্যকরভাবে ব্যবহার করে।
ট্রেড-অফ (Trade-offs):
এই গতির বিনিময়ে গুণমানের (quality) কিছুটা ক্ষতি হয়। স্ট্যান্ডার্ড Gemma 4 26B-এর তুলনায় রিজনিং (reasoning) এবং কোডিং বেঞ্চমার্কে DiffusionGemma-এর স্কোর কম।
সেরা ব্যবহারের ক্ষেত্রসমূহ:
- কোড ইনফিলিং (Code infilling)।
- JSON স্কিমা পূরণ করা।
- স্ট্রাকচার্ড ডকুমেন্ট কমপ্লিশন।
- লোকাল টাস্ক যেখানে লো-ল্যাটেন্সি (low latency) অগ্রাধিকার পায়।
এগুলো এড়িয়ে চলুন:
- বিশাল ব্যাচসহ হাই-কনকারেন্সি (high-concurrency) API।
- এমন কাজ যেখানে গুণমানই একমাত্র অগ্রাধিকার।
- এমন অ্যাপ্লিকেশন যেখানে শব্দ অনুযায়ী টেক্সট স্ট্রিমিং করার প্রয়োজন হয়।
এই মডেলটি Mixture-of-Experts (MoE) আর্কিটেকচার ব্যবহার করে। এতে মোট ২৫.২B প্যারামিটার রয়েছে তবে প্রতি ধাপে মাত্র ৩.৮B অ্যাক্টিভ প্যারামিটার ব্যবহার করে। আপনি ২৪GB VRAM সহ একটি RTX 4090-এ এর ৪-বিট ভার্সন চালাতে পারেন।
এটি একটি পরীক্ষামূলক মডেল। আপনার যদি সর্বোচ্চ নির্ভুলতা প্রয়োজন হয় তবে স্ট্যান্ডার্ড Gemma 4 ব্যবহার করুন। আর লোকাল অ্যাপ্লিকেশনের জন্য যদি চরম গতি প্রয়োজন হয় তবে DiffusionGemma ব্যবহার করুন।
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi