DiffusionGemma 26B: समांतर मजकूर निर्मिती (Parallel Text Generation)

Google DeepMind ने DiffusionGemma 26B लाँच केले आहे. हे मॉडेल मानक autoregressive पद्धतीऐवजी discrete diffusion चा वापर करते.

GPT किंवा Llama सारखी बहुतेक मॉडेल्स एका वेळी एक टोकन (token) तयार करतात. प्रत्येक टोकनसाठी त्यांना पूर्ण पास (pass) चालवावा लागतो. यामुळे स्थानिक वापर किंवा रिअल-टाइम कामांसाठी ती संथ ठरतात.

DiffusionGemma वेगळ्या पद्धतीने काम करते. हे २५६ रँडम टोकन्सच्या ब्लॉकपासून सुरुवात करते आणि अनेक पासेसद्वारे त्यांना सुधारते (refines).

हे महत्त्वाचे का आहे:

• वेग (Speed): H100 GPU वर हे प्रति सेकंद १,००० टोकन्सपर्यंत पोहोचू शकते. त्याच हार्डवेअरवर मानक मॉडेल्स केवळ प्रति सेकंद ७० टोकन्सपर्यंत पोहोचतात. • कार्यक्षमता (Efficiency): २५६ टोकन्ससाठी २५६ पासेस घेण्याऐवजी, याला फक्त सुमारे १० पासेसची आवश्यकता असते. • GPU वापर: हे मेमरी बँडविड्थपेक्षा कॉम्प्युट पॉवरचा अधिक प्रभावीपणे वापर करते.

तडजोडी (Trade-offs):

वेगामुळे गुणवत्तेत तडजोड करावी लागते. मानक Gemma 4 26B च्या तुलनेत DiffusionGemma चे reasoning आणि coding benchmarks वरील स्कोअर कमी आहेत.

सर्वोत्तम वापर (Best use cases):

  • कोड इन्फिलिंग (Code infilling).
  • JSON schemas भरणे.
  • स्ट्रक्चर्ड डॉक्युमेंट पूर्ण करणे.
  • स्थानिक कामे जिथे कमी लॅटन्सी (low latency) ही प्राथमिकता आहे.

खालील गोष्टींसाठी वापरणे टाळा:

  • मोठ्या बॅचेससह हाय-कॉन्करन्सी (high-concurrency) APIs.
  • अशी कामे जिथे गुणवत्ता ही एकमेव प्राथमिकता आहे.
  • शब्दशः मजकूर स्ट्रीमिंग (streaming text) आवश्यक असलेले ॲप्लिकेशन्स.

हे मॉडेल Mixture-of-Experts (MoE) आर्किटेक्चर वापरते. यामध्ये एकूण २५.२B पॅरामीटर्स आहेत, परंतु प्रत्येक स्टेपमध्ये फक्त ३.८B ॲक्टिव्ह पॅरामीटर्स वापरले जातात. तुम्ही २४GB VRAM असलेल्या RTX 4090 वर याचे 4-bit व्हर्जन चालवू शकता.

हे एक प्रायोगिक (experimental) मॉडेल आहे. तुम्हाला सर्वोच्च अचूकता हवी असल्यास मानक Gemma 4 वापरा. स्थानिक ॲप्लिकेशन्ससाठी तुम्हाला प्रचंड वेग हवा असल्यास DiffusionGemma वापरा.

Source: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-26b-how-googles-text-diffusion-model-generates-tokens-in-parallel-56og

Optional learning community: https://t.me/GyaanSetuAi