DiffusionGemma: प्रति सेकंद १,००० टोकन्स

Translated for your language. Read the original.

AI-assisted draft.

४ दिवसांपूर्वी2min read

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

बहुतेक भाषा मॉडेल्स एका वेळी एक शब्द वापरून काम करतात. ते डावीकडून उजवीकडे जातात. यामुळे वेगावर मर्यादा येते, कारण पुढचा शब्द सुरू करण्यापूर्वी मॉडेलला प्रत्येक शब्द पूर्ण होण्याची वाट पाहावी लागते.

Google DeepMind ने DiffusionGemma द्वारे हे बदलले आहे.

क्रमाने लिहिण्याऐवजी, हे 'denoising' प्रक्रियेचा वापर करते. हे २५६ टोकन्सपर्यंतचा एक ब्लॉक घेते आणि ते सर्व एकाच वेळी सुधारते. या पद्धतीमुळे एका सिंगल NVIDIA H100 वर प्रति सेकंद १,००० पेक्षा जास्त टोकन्स मिळतात. हे मानक मॉडेल्सपेक्षा चार पटीने वेगाने काम करते.

हे कसे कार्य करते:

मॉडेल प्लेसहोल्डर टोकन्सच्या (placeholder tokens) ब्लॉकपासून सुरुवात करते.
हे प्लेसहोल्डर्स स्वच्छ करण्यासाठी अनेक वेळा प्रक्रिया (passes) राबवते.
ब्लॉक मधील प्रत्येक टोकन एकाच वेळी इतर सर्व टोकन्सकडे पाहते.
हा द्विमार्गी (bidirectional) दृष्टिकोन मॉडेलला दोन्ही बाजूंनी संदर्भ समजून घेण्यास मदत करतो.

हार्डवेअर कामगिरी:

• NVIDIA H100: १,०००+ टोकन्स/सेकंद • NVIDIA DGX Station: २,००० टोकन्स/सेकंद पर्यंत • GeForce RTX 5090: ~७०० टोकन्स/सेकंद • VRAM आवश्यकता: क्वांटाइझ (quantized) केल्यावर ~१८GB

याचा वापर कुठे करावा:

DiffusionGemma स्थानिक (local) सेटिंग्जमध्ये उत्कृष्ट कामगिरी करते. क्लाउडमध्ये, कंपन्या कार्यक्षमता टिकवून ठेवण्यासाठी अनेक वापरकर्त्यांना एकत्रितपणे (batch) हाताळतात. तुमच्या स्वतःच्या संगणकावर, शब्दांच्या दरम्यान GPU अनेकदा रिकामी (idle) बसलेली असते. DiffusionGemma मेमरीतील अडथळ्यांना (bottlenecks) थेट कम्प्युट टास्कमध्ये रूपांतरित करून ही समस्या सोडवते.

याचा वापर खालील गोष्टींसाठी करा:

कोड इन्फिलिंग (Code infilling): फंक्शनच्या मध्यभागी कोड जोडणे.
मजकूर संपादन (Text editing): परिच्छेदातील वाक्य बदलणे.
निर्बंधात्मक कार्ये (Constraint tasks): कोडी किंवा गणित सोडवणे जिथे संपूर्ण ब्लॉक एकमेकांशी सुसंगत असणे आवश्यक असते.

याचा तोटा म्हणजे गुणवत्ता. बेंचमार्क असे दर्शवतात की तर्क (reasoning) आणि कोडिंगमध्ये DiffusionGemma चे स्कोअर मानक Gemma 4 पेक्षा कमी आहेत. प्रतिमांच्या तुलनेत भाषेला 'डिफ्यूज' करणे कठीण असते, कारण एक चुकीचा शब्द संपूर्ण वाक्य बिघडू शकतो.

निष्कर्ष:

जर तुम्हाला स्थानिक हार्डवेअरवर वेगाची गरज असेल, तर DiffusionGemma वापरा. जर तुम्हाला सर्वोच्च अचूकता आणि सखोल तर्क (deep reasoning) हवा असेल, तर मानक Gemma 4 वापरा.

स्रोत: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

पर्यायी लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

DiffusionGemma: प्रति सेकंद १,००० टोकन्स

Continue reading

DiffusionGemma: Google चा Open AI Twist

Hogwild! इन्फरन्स: समांतर LLM जनरेशन

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

गुगलने एआय जनरेशन कायमचे बदलले

GPT तुमच्या कल्पनेपेक्षाही जास्त करू शकते