𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Translated for your language. Read the original.

AI-assisted draft.

4 ദിവസം മുമ്പ്1min read

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: സമാന്തരമായ ടെക്സ്റ്റ് ജനറേഷൻ

Google DeepMind DiffusionGemma 26B പുറത്തിറക്കി. സാധാരണ autoregressive രീതിക്ക് പകരം ഈ മോഡൽ discrete diffusion ആണ് ഉപയോഗിക്കുന്നത്.

GPT അല്ലെങ്കിൽ Llama പോലുള്ള മിക്ക മോഡലുകളും ഓരോ ടോക്കണായിട്ടാണ് ടെക്സ്റ്റ് ജനറേറ്റ് ചെയ്യുന്നത്. ഓരോ ടോക്കണിനും അവയ്ക്ക് ഒരു ഫുൾ പാസ് (full pass) നടത്തേണ്ടതുണ്ട്. ഇത് ലോക്കൽ ഉപയോഗത്തിനോ തത്സമയ (real-time) ജോലികൾക്കോ അവയെ സാവധാനത്തിലാക്കുന്നു.

DiffusionGemma വ്യത്യസ്തമായാണ് പ്രവർത്തിക്കുന്നത്. ഇത് 256 റാൻഡം ടോക്കണുകളുടെ ഒരു ബ്ലോക്കോടെയാണ് തുടങ്ങുന്നത്, തുടർന്ന് ഒന്നിലധികം പാസുകളിലൂടെ അവയെ പരിഷ്കരിക്കുന്നു.

എന്തുകൊണ്ടാണ് ഇത് പ്രധാനമാകുന്നത്:

• വേഗത: ഒരു H100 GPU-വിൽ ഇതിന് സെക്കൻഡിൽ 1,000 ടോക്കണുകൾ വരെ എത്തിച്ചേരാനാകും. അതേ ഹാർഡ്‌വെയറിൽ സാധാരണ മോഡലുകൾ സെക്കൻഡിൽ 70 ടോക്കണുകൾ മാത്രമേ കൈവരിക്കുകയുള്ളൂ. • കാര്യക്ഷമത: 256 ടോക്കണുകൾക്കായി 256 പാസുകൾക്ക് പകരം, ഇതിന് ഏകദേശം 10 പാസുകൾ മാത്രം മതിയാകും. • GPU ഉപയോഗം: മെമ്മറി ബാൻഡ്‌വിഡ്‌ത്തേക്കാൾ കാര്യക്ഷമമായി ഇത് കമ്പ്യൂട്ട് പവർ ഉപയോഗിക്കുന്നു.

ഇതിന്റെ പോരായ്മകൾ:

വേഗത ലഭിക്കുമ്പോൾ ഗുണനിലവാരത്തിൽ കുറവുണ്ടാകുന്നു. സാധാരണ Gemma 4 26B-യുമായി താരതമ്യം ചെയ്യുമ്പോൾ റീസണിംഗ് (reasoning), കോഡിംഗ് ബെഞ്ച്മാർക്കുകളിൽ DiffusionGemma കുറഞ്ഞ സ്കോറാണ് നേടുന്നത്.

മികച്ച ഉപയോഗങ്ങൾ:

കോഡ് ഇൻഫില്ലിംഗ് (Code infilling).
JSON സ്കീമകൾ പൂരിപ്പിക്കുക.
സ്ട്രക്ചേർഡ് ഡോക്യുമെന്റ് കംപ്ലീഷൻ.
കുറഞ്ഞ ലേറ്റൻസി (low latency) മുൻഗണനയായ ലോക്കൽ ജോലികൾ.

ഇവയ്ക്കായി ഉപയോഗിക്കുന്നത് ഒഴിവാക്കുക:

വലിയ ബാച്ചുകളുള്ള ഹൈ-കൺകറൻസി (high-concurrency) API-കൾ.
ഗുണനിലവാരത്തിന് മാത്രം മുൻഗണന നൽകുന്ന ജോലികൾ.
ഓരോ വാക്കായി ടെക്സ്റ്റ് സ്ട്രീമിംഗ് ആവശ്യമുള്ള ആപ്ലിക്കേഷനുകൾ.

ഈ മോഡൽ ഒരു Mixture-of-Experts (MoE) ആർക്കിടെക്ചർ ആണ് ഉപയോഗിക്കുന്നത്. ഇതിന് ആകെ 25.2B പാരാമീറ്ററുകൾ ഉണ്ടെങ്കിലും ഓരോ സ്റ്റെപ്പിലും 3.8B ആക്റ്റീവ് പാരാമീറ്ററുകൾ മാത്രമേ ഉപയോഗിക്കുന്നുള്ളൂ. നിങ്ങൾക്ക് 24GB VRAM ഉള്ള ഒരു RTX 4090-ൽ ഇതിന്റെ 4-bit വേർഷൻ പ്രവർത്തിപ്പിക്കാം.

ഇതൊരു പരീക്ഷണാടിസ്ഥാനത്തിലുള്ള മോഡലാണ്. നിങ്ങൾക്ക് ഏറ്റവും ഉയർന്ന കൃത്യത വേണമെങ്കിൽ സാധാരണ Gemma 4 ഉപയോഗിക്കുക. ലോക്കൽ ആപ്ലിക്കേഷനുകൾക്കായി അങ്ങേയറ്റത്തെ വേഗത വേണമെങ്കിൽ DiffusionGemma ഉപയോഗിക്കുക.

സ്രോതസ്സ്: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-26b-how-googles-text-diffusion-model-generates-tokens-in-parallel-56og

ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Continue reading

𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗦𝗵𝗼𝘄𝘀 𝗛𝗼𝘄 𝗙𝗮𝗿 𝗟𝗼𝗰𝗮𝗹 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗔𝗜 𝗛𝗮𝘀 𝗠𝗼𝘃𝗲𝗱

ഡിഫ്യൂഷൻജെമ്മ: ഗൂഗിളിന്റെ ഓപ്പൺ എഐ ട്വിസ്റ്റ്

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

ജെമ്മ 2 ആർക്കിടെക്ചർ: കുറഞ്ഞ മോഡലിൽ നിന്ന് കൂടുതൽ പ്രകടനം

𝗚𝗼𝗼𝗴𝗹𝗲 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗔𝗜 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗙𝗼𝗿𝗲𝘃𝗲𝗿