𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

4 दिन पहले2मिनट पढ़ें

DiffusionGemma: 1,000 टोकन प्रति सेकंड

अधिकांश भाषा मॉडल एक बार में एक शब्द पर काम करते हैं। वे बाएं से दाएं चलते हैं। इससे गति की एक सीमा बन जाती है क्योंकि मॉडल को अगला शब्द शुरू करने से पहले प्रत्येक शब्द के पूरा होने का इंतज़ार करना पड़ता है।

Google DeepMind ने DiffusionGemma के साथ इसे बदल दिया है।

क्रमिक लेखन (sequential writing) के बजाय, यह एक 'डिनोइज़िंग' (denoising) प्रक्रिया का उपयोग करता है। यह 256 टोकन तक के एक ब्लॉक को लेता है और उन्हें एक साथ रिफाइन करता है। यह दृष्टिकोण एक एकल NVIDIA H100 पर 1,000 टोकन प्रति सेकंड से अधिक की गति प्राप्त करता है। यह मानक मॉडलों की तुलना में चार गुना तेज़ है।

यह कैसे काम करता है:

मॉडल प्लेसहोल्डर टोकन के एक ब्लॉक के साथ शुरू होता है।
यह इन प्लेसहोल्डर्स को साफ करने के लिए कई पास (passes) चलाता है।
ब्लॉक में प्रत्येक टोकन एक ही समय में अन्य सभी टोकन को देखता है।
यह द्विदिश (bidirectional) दृश्य मॉडल को दोनों तरफ से संदर्भ (context) समझने में मदद करता है।

हार्डवेयर प्रदर्शन:

• NVIDIA H100: 1,000+ टोकन/सेकंड • NVIDIA DGX Station: 2,000 टोकन/सेकंड तक • GeForce RTX 5090: ~700 टोकन/सेकंड • VRAM की आवश्यकता: क्वांटाइज़ (quantized) होने पर ~18GB

इसका उपयोग कहाँ करें:

DiffusionGemma स्थानीय सेटिंग्स (local settings) में उत्कृष्ट है। क्लाउड में, कंपनियाँ कुशल रहने के लिए कई उपयोगकर्ताओं को एक साथ बैच करती हैं। आपके अपने कंप्यूटर पर, GPU अक्सर शब्दों के बीच खाली (idle) बैठा रहता है। DiffusionGemma मेमोरी बॉटलनेक्स (memory bottlenecks) को रॉ कंप्यूट टास्क (raw compute tasks) में बदलकर इस समस्या का समाधान करता है।

इसका उपयोग इनके लिए करें:

कोड इनफिलिंग (Code infilling): किसी फंक्शन के बीच में कोड जोड़ना।
टेक्स्ट एडिटिंग: पैराग्राफ के अंदर किसी वाक्य को बदलना।
कंस्ट्रेंट टास्क (Constraint tasks): पहेलियाँ या गणित हल करना जहाँ पूरे ब्लॉक को एक साथ फिट होना चाहिए।

इसके बदले में गुणवत्ता (quality) का समझौता करना पड़ता है। बेंचमार्क दिखाते हैं कि तर्क (reasoning) और कोडिंग में DiffusionGemma का स्कोर मानक Gemma 4 से कम है। छवियों की तुलना में भाषा को डिफ्यूज करना कठिन है क्योंकि एक गलत शब्द पूरे वाक्य को खराब कर सकता है।

निष्कर्ष:

यदि आपको स्थानीय हार्डवेयर पर गति की आवश्यकता है, तो DiffusionGemma का उपयोग करें। यदि आपको उच्चतम सटीकता और गहन तर्क (deep reasoning) की आवश्यकता है, तो मानक Gemma 4 का उपयोग करें।

स्रोत: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

पढ़ना जारी रखें

DiffusionGemma: Google का ओपन AI ट्विस्ट

𝗛𝗼𝗴𝘄𝗶𝗹𝗱! 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗟𝗟𝗠 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

गूगल ने AI जनरेशन को हमेशा के लिए बदल दिया

GPT आपकी सोच से कहीं अधिक कर सकता है