DiffusionGemma: প্রতি সেকেন্ডে ১,০০০ টোকেন

Translated for your language. Read the original.

AI-assisted draft.

৪ দিন আগে2min read

DiffusionGemma: প্রতি সেকেন্ডে 1,000 টোকেন

বেশিরভাগ ল্যাঙ্গুয়েজ মডেল একবারে একটি করে শব্দ নিয়ে কাজ করে। তারা বাম থেকে ডানে অগ্রসর হয়। এটি একটি গতির সীমাবদ্ধতা তৈরি করে কারণ পরবর্তী শব্দটি শুরু করার আগে মডেলটিকে প্রতিটি শব্দের সমাপ্তির জন্য অপেক্ষা করতে হয়।

Google DeepMind DiffusionGemma-এর মাধ্যমে এটি পরিবর্তন করেছে।

ক্রমানুসারে লেখার পরিবর্তে, এটি একটি ডিনয়েজিং (denoising) প্রক্রিয়া ব্যবহার করে। এটি 256টি টোকেন পর্যন্ত একটি ব্লক গ্রহণ করে এবং সেগুলো একসাথে পরিমার্জিত করে। এই পদ্ধতির মাধ্যমে একটি একক NVIDIA H100-এ প্রতি সেকেন্ডে 1,000-এর বেশি টোকেন অর্জন করা সম্ভব। এটি সাধারণ মডেলগুলোর তুলনায় চারগুণ দ্রুত।

এটি যেভাবে কাজ করে:

মডেলটি প্লেসহোল্ডার টোকেনের একটি ব্লক দিয়ে শুরু করে।
এই প্লেসহোল্ডারগুলোকে পরিষ্কার করতে এটি একাধিক ধাপ বা পাস (pass) চালায়।
প্রতিটি টোকেন একই সাথে ব্লকের অন্যান্য প্রতিটি টোকেনের দিকে নজর দেয়।
এই দ্বিমুখী দৃষ্টিভঙ্গি মডেলটিকে উভয় দিক থেকে প্রেক্ষাপট (context) বুঝতে সাহায্য করে।

হার্ডওয়্যার পারফরম্যান্স:

• NVIDIA H100: 1,000+ tokens/second • NVIDIA DGX Station: up to 2,000 tokens/second • GeForce RTX 5090: ~700 tokens/second • VRAM প্রয়োজন: কোয়ান্টাইজড (quantized) অবস্থায় ~18GB

এটি কোথায় ব্যবহার করবেন:

DiffusionGemma লোকাল সেটআপে চমৎকার কাজ করে। ক্লাউডে, কোম্পানিগুলো দক্ষতা বজায় রাখতে অনেক ব্যবহারকারীকে একসাথে ব্যাচ আকারে প্রসেস করে। কিন্তু আপনার নিজস্ব কম্পিউটারে, শব্দগুলোর মাঝখানে GPU প্রায়ই অলস বসে থাকে। DiffusionGemma মেমরি বটলেনেক (memory bottleneck) বা সীমাবদ্ধতাকে সরাসরি কম্পিউট টাস্কে রূপান্তর করার মাধ্যমে এই সমস্যার সমাধান করে।

এটি ব্যবহার করুন:

কোড ইনফিলিং (Code infilling): একটি ফাংশনের মাঝখানে কোড যোগ করা।
টেক্সট এডিটিং: একটি অনুচ্ছেদের ভেতরে কোনো বাক্য পরিবর্তন করা।
কনস্ট্রেইন্ট টাস্ক (Constraint tasks): ধাঁধা বা গণিত সমাধান করা যেখানে পুরো ব্লকটিকে সামঞ্জস্যপূর্ণ হতে হয়।

এর বিনিময়ে গুণমানের কিছুটা ছাড় দিতে হয়। বেঞ্চমার্ক অনুযায়ী, রিজনিং (reasoning) এবং কোডিংয়ের ক্ষেত্রে DiffusionGemma সাধারণ Gemma 4-এর তুলনায় কম স্কোর করে। ছবির তুলনায় ভাষার ক্ষেত্রে ডিফিউশন করা বেশি কঠিন, কারণ একটি ভুল শব্দ পুরো বাক্যটি নষ্ট করে দিতে পারে।

সিদ্ধান্ত:

যদি লোকাল হার্ডওয়্যারে দ্রুত গতি প্রয়োজন হয়, তবে DiffusionGemma ব্যবহার করুন। আর যদি সর্বোচ্চ নির্ভুলতা এবং গভীর রিজনিং প্রয়োজন হয়, তবে সাধারণ Gemma 4 ব্যবহার করুন।

উৎস: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

DiffusionGemma: প্রতি সেকেন্ডে ১,০০০ টোকেন

Continue reading

DiffusionGemma: Google-এর ওপেন AI টুইস্ট

𝗛𝗼𝗴𝘄𝗶𝗹𝗱! 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗟𝗟𝗠 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

গুগল এআই জেনারেশনকে চিরতরে বদলে দিচ্ছে

GPT আপনার ভাবনার চেয়েও বেশি কিছু করতে পারে