𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial4 రోజుల క్రితం1min read

Google DeepMind, DiffusionGemma 26Bని విడుదల చేసింది. ఈ మోడల్ ప్రామాణిక autoregressive పద్ధతికి బదులుగా discrete diffusionని ఉపయోగిస్తుంది.

GPT లేదా Llama వంటి చాలా మోడల్స్ ఒక్కోసారి ఒక టోకెన్‌ను మాత్రమే జనరేట్ చేస్తాయి. ప్రతి ఒక్క టోకెన్ కోసం అవి పూర్తి పాస్ (full pass) చేయాల్సి ఉంటుంది. దీనివల్ల లోకల్ వినియోగం లేదా రియల్-టైమ్ పనుల కోసం అవి నెమ్మదిగా ఉంటాయి.

DiffusionGemma భిన్నంగా పనిచేస్తుంది. ఇది 256 రాండమ్ టోకెన్ల బ్లాక్‌తో ప్రారంభమై, బహుళ పాస్‌ల ద్వారా వాటిని మెరుగుపరుస్తుంది.

ఇది ఎందుకు ముఖ్యమైనది:

• వేగం (Speed): ఇది H100 GPUపై సెకనుకు 1,000 టోకెన్ల వేగాన్ని అందుకోగలదు. అదే హార్డ్‌వేర్‌పై ప్రామాణిక మోడల్స్ సెకనుకు కేవలం 70 టోకెన్లను మాత్రమే చేరుకోగలవు. • సామర్థ్యం (Efficiency): 256 టోకెన్ల కోసం 256 పాస్‌లకు బదులుగా, దీనికి కేవలం 10 పాస్‌లు మాత్రమే అవసరమవుతాయి. • GPU వినియోగం: ఇది మెమరీ బ్యాండ్‌విడ్త్ కంటే కంప్యూట్ పవర్‌ను మరింత సమర్థవంతంగా ఉపయోగిస్తుంది.

లాభనష్టాలు (The trade-offs):

ఈ వేగం నాణ్యత విషయంలో కొంత తగ్గుదలని కలిగిస్తుంది. ప్రామాణిక Gemma 4 26Bతో పోలిస్తే, రీజనింగ్ (reasoning) మరియు కోడింగ్ బెంచ్‌మార్క్‌లలో DiffusionGemma తక్కువ స్కోర్‌లను సాధిస్తుంది.

ఉత్తమ వినియోగ సందర్భాలు:

కోడ్ ఇన్‌ఫిల్లింగ్ (Code infilling).
JSON స్కీమాలను నింపడం (Filling JSON schemas).
స్ట్రక్చర్డ్ డాక్యుమెంట్ కంప్లీషన్ (Structured document completion).
తక్కువ లాటెన్సీ (low latency) ప్రాధాన్యత కలిగిన లోకల్ పనులు.

వీటి కోసం దీనిని ఉపయోగించవద్దు:

భారీ బ్యాచ్‌లతో కూడిన హై-కన్కరెన్సీ APIs.
నాణ్యత మాత్రమే ప్రాధాన్యతగా ఉండే పనులు.
పదం పదం టెక్స్ట్‌ను స్ట్రీమింగ్ చేయవలసిన అప్లికేషన్లు.

ఈ మోడల్ Mixture-of-Experts (MoE) ఆర్కిటెక్చర్‌ను ఉపయోగిస్తుంది. దీనికి మొత్తం 25.2B పారామీటర్లు ఉన్నప్పటికీ, ప్రతి స్టెప్‌లో కేవలం 3.8B యాక్టివ్ పారామీటర్లను మాత్రమే ఉపయోగిస్తుంది. మీరు 24GB VRAM ఉన్న RTX 4090పై దీని 4-bit వెర్షన్‌ను రన్ చేయవచ్చు.

ఇది ఒక ప్రయోగాత్మక మోడల్. మీకు అత్యధిక ఖచ్చితత్వం కావాలంటే ప్రామాణిక Gemma 4ని ఉపయోగించండి. లోకల్ అప్లికేషన్ల కోసం మీకు అత్యంత వేగం కావాలంటే DiffusionGemmaని ఉపయోగించండి.

Source: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-26b-how-googles-text-diffusion-model-generates-tokens-in-parallel-56og

Optional learning community: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Continue reading

𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗦𝗵𝗼𝘄𝘀 𝗛𝗼𝘄 𝗙𝗮𝗿 𝗟𝗼𝗰𝗮𝗹 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗔𝗜 𝗛𝗮𝘀 𝗠𝗼𝘃𝗲𝗱

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

Gemma 2 ఆర్కిటెక్చర్: తక్కువ మోడల్ పరిమాణంతో మెరుగైన పనితీరు

𝗚𝗼𝗼𝗴𝗹𝗲 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗔𝗜 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗙𝗼𝗿𝗲𝘃𝗲𝗿