𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Translated for your language. Read the original.

AI-assisted draft.

৪ দিন আগে1min read

DiffusionGemma 26B: প্যারালাল টেক্সট জেনারেশন

Google DeepMind DiffusionGemma 26B রিলিজ করেছে। এই মডেলটি স্ট্যান্ডার্ড অটোরিগ্রেসিভ (autoregressive) পদ্ধতির পরিবর্তে ডিসক্রিট ডিফিউশন (discrete diffusion) ব্যবহার করে।

GPT বা Llama-এর মতো বেশিরভাগ মডেল একটি সময়ে একটি করে টোকেন জেনারেট করে। প্রতিটি টোকেনের জন্য তাদের একটি সম্পূর্ণ পাস (pass) চালাতে হয়। এর ফলে লোকাল ব্যবহার বা রিয়েল-টাইম কাজের জন্য এগুলো ধীরগতির হয়ে পড়ে।

DiffusionGemma ভিন্নভাবে কাজ করে। এটি ২৫৬টি র‍্যান্ডম টোকেনের একটি ব্লক দিয়ে শুরু হয় এবং একাধিক পাসের মাধ্যমে সেগুলোকে রিফাইন (refine) করে।

কেন এটি গুরুত্বপূর্ণ:

• গতি: এটি একটি H100 GPU-তে প্রতি সেকেন্ডে ১,০০০ টোকেন পর্যন্ত পৌঁছাতে পারে। একই হার্ডওয়্যারে স্ট্যান্ডার্ড মডেলগুলো প্রতি সেকেন্ডে মাত্র ৭০ টোকেন পর্যন্ত পৌঁছাতে পারে। • দক্ষতা: ২৫৬টি টোকেনের জন্য ২৫৬টি পাসের পরিবর্তে, এর মাত্র প্রায় ১০টি পাসের প্রয়োজন হয়। • GPU ব্যবহার: এটি মেমরি ব্যান্ডউইথের চেয়ে কম্পিউট পাওয়ার (compute power) আরও কার্যকরভাবে ব্যবহার করে।

ট্রেড-অফ (Trade-offs):

এই গতির বিনিময়ে গুণমানের (quality) কিছুটা ক্ষতি হয়। স্ট্যান্ডার্ড Gemma 4 26B-এর তুলনায় রিজনিং (reasoning) এবং কোডিং বেঞ্চমার্কে DiffusionGemma-এর স্কোর কম।

সেরা ব্যবহারের ক্ষেত্রসমূহ:

কোড ইনফিলিং (Code infilling)।
JSON স্কিমা পূরণ করা।
স্ট্রাকচার্ড ডকুমেন্ট কমপ্লিশন।
লোকাল টাস্ক যেখানে লো-ল্যাটেন্সি (low latency) অগ্রাধিকার পায়।

এগুলো এড়িয়ে চলুন:

বিশাল ব্যাচসহ হাই-কনকারেন্সি (high-concurrency) API।
এমন কাজ যেখানে গুণমানই একমাত্র অগ্রাধিকার।
এমন অ্যাপ্লিকেশন যেখানে শব্দ অনুযায়ী টেক্সট স্ট্রিমিং করার প্রয়োজন হয়।

এই মডেলটি Mixture-of-Experts (MoE) আর্কিটেকচার ব্যবহার করে। এতে মোট ২৫.২B প্যারামিটার রয়েছে তবে প্রতি ধাপে মাত্র ৩.৮B অ্যাক্টিভ প্যারামিটার ব্যবহার করে। আপনি ২৪GB VRAM সহ একটি RTX 4090-এ এর ৪-বিট ভার্সন চালাতে পারেন।

এটি একটি পরীক্ষামূলক মডেল। আপনার যদি সর্বোচ্চ নির্ভুলতা প্রয়োজন হয় তবে স্ট্যান্ডার্ড Gemma 4 ব্যবহার করুন। আর লোকাল অ্যাপ্লিকেশনের জন্য যদি চরম গতি প্রয়োজন হয় তবে DiffusionGemma ব্যবহার করুন।

উৎস: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-26b-how-googles-text-diffusion-model-generates-tokens-in-parallel-56og

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Continue reading

𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗦𝗵𝗼𝘄𝘀 𝗛𝗼𝘄 𝗙𝗮𝗿 𝗟𝗼𝗰𝗮𝗹 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗔𝗜 𝗛𝗮𝘀 𝗠𝗼𝘃𝗲𝗱

DiffusionGemma: Google-এর ওপেন AI টুইস্ট

DiffusionGemma: প্রতি সেকেন্ডে ১,০০০ টোকেন

𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹

গুগল এআই জেনারেশনকে চিরতরে বদলে দিচ্ছে