𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

4 दिन पहले1मिनट पढ़ें

DiffusionGemma 26B: पैरेलल टेक्स्ट जनरेशन

Google DeepMind ने DiffusionGemma 26B रिलीज़ किया है। यह मॉडल मानक autoregressive विधि के बजाय discrete diffusion का उपयोग करता है।

GPT या Llama जैसे अधिकांश मॉडल एक बार में एक टोकन करके टेक्स्ट जनरेट करते हैं। उन्हें प्रत्येक टोकन के लिए एक पूरा पास (pass) चलाना पड़ता है। यह उन्हें स्थानीय उपयोग या रीयल-टाइम कार्यों के लिए धीमा बनाता है।

DiffusionGemma अलग तरह से काम करता है। यह 256 रैंडम टोकन के एक ब्लॉक के साथ शुरू होता है और कई पास के माध्यम से उन्हें रिफाइन (refine) करता है।

यह क्यों महत्वपूर्ण है:

• स्पीड: यह H100 GPU पर 1,000 टोकन प्रति सेकंड तक पहुँच सकता है। मानक मॉडल उसी हार्डवेयर पर केवल 70 टोकन प्रति सेकंड तक पहुँच पाते हैं। • दक्षता: 256 टोकन के लिए 256 पास के बजाय, इसे केवल लगभग 10 पास की आवश्यकता होती है। • GPU उपयोग: यह मेमोरी बैंडविड्थ की तुलना में कंप्यूट पावर का अधिक प्रभावी ढंग से उपयोग करता है।

ट्रेड-ऑफ (Trade-offs):

इस स्पीड की कीमत क्वालिटी में चुकानी पड़ती है। मानक Gemma 4 26B की तुलना में DiffusionGemma रीजनिंग और कोडिंग बेंचमार्क पर कम स्कोर करता है।

सबसे अच्छे उपयोग के मामले:

कोड इनफिलिंग (Code infilling)।
JSON स्कीमा भरना।
स्ट्रक्चर्ड डॉक्यूमेंट पूरा करना।
स्थानीय कार्य जहाँ कम लेटेंसी (low latency) प्राथमिकता हो।

इनका उपयोग करने से बचें:

विशाल बैचों वाले हाई-कन्करेंसी (high-concurrency) APIs।
ऐसे कार्य जहाँ क्वालिटी ही एकमात्र प्राथमिकता हो।
ऐसे एप्लिकेशन जिन्हें शब्द-दर-शब्द टेक्स्ट स्ट्रीमिंग की आवश्यकता हो।

यह मॉडल Mixture-of-Experts (MoE) आर्किटेक्चर का उपयोग करता है। इसमें कुल 25.2B पैरामीटर्स हैं, लेकिन यह प्रति स्टेप केवल 3.8B एक्टिव पैरामीटर्स का उपयोग करता है। आप 24GB VRAM वाले RTX 4090 पर इसका 4-bit वर्शन चला सकते हैं।

यह एक प्रयोगात्मक (experimental) मॉडल है। यदि आपको उच्चतम सटीकता की आवश्यकता है, तो मानक Gemma 4 का उपयोग करें। यदि आपको स्थानीय अनुप्रयोगों के लिए अत्यधिक गति की आवश्यकता है, तो DiffusionGemma का उपयोग करें।

स्रोत: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-26b-how-googles-text-diffusion-model-generates-tokens-in-parallel-56og

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

पढ़ना जारी रखें

Gemma 4 12B दिखाता है कि लोकल मल्टीमॉडल AI ने कितनी प्रगति की है

DiffusionGemma: Google का ओपन AI ट्विस्ट

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

Gemma 2 आर्किटेक्चर: कम मॉडल से बेहतर प्रदर्शन

गूगल ने AI जनरेशन को हमेशा के लिए बदल दिया