𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

Translated for your language. Read the original.

AI-assisted draft.

4 ദിവസം മുമ്പ്2min read

മിക്ക ലാംഗ്വേജ് മോഡലുകളും ഓരോ വാക്കുകളായിട്ടാണ് പ്രവർത്തിക്കുന്നത്. അവ ഇടത്തുനിന്ന് വലത്തോട്ട് നീങ്ങുന്നു. ഓരോ വാക്കും പൂർത്തിയാകുന്നത് വരെ അടുത്ത വാക്കിനായി മോഡൽ കാത്തുനിൽക്കേണ്ടി വരുന്നത് ഒരു വേഗത പരിധി (speed limit) സൃഷ്ടിക്കുന്നു.

Google DeepMind DiffusionGemma ഉപയോഗിച്ച് ഇത് മാറ്റിമറിച്ചു.

ക്രമമായ എഴുത്തിന് (sequential writing) പകരം, ഇത് ഒരു ഡെനോയിസിംഗ് (denoising) പ്രക്രിയയാണ് ഉപയോഗിക്കുന്നത്. ഇത് 256 ടോക്കണുകൾ വരെയുള്ള ഒരു ബ്ലോക്ക് എടുക്കുകയും അവയെല്ലാം ഒരേസമയം പരിഷ്കരിക്കുകയും ചെയ്യുന്നു. ഈ രീതിയിലൂടെ ഒരു സിംഗിൾ NVIDIA H100-ൽ സെക്കൻഡിൽ 1,000-ലധികം ടോക്കണുകൾ കൈവരിക്കാൻ സാധിക്കുന്നു. ഇത് സാധാരണ മോഡലുകളേക്കാൾ നാല് മടങ്ങ് വേഗതയുള്ളതാണ്.

ഇത് എങ്ങനെ പ്രവർത്തിക്കുന്നു:

മോഡൽ പ്ലേസ്‌ഹോൾഡർ ടോക്കണുകളുടെ (placeholder tokens) ഒരു ബ്ലോക്കോടെയാണ് ആരംഭിക്കുന്നത്.
ഈ പ്ലേസ്‌ഹോൾഡറുകളെ വൃത്തിയാക്കാൻ ഇത് ഒന്നിലധികം തവണ പ്രവർത്തിക്കുന്നു.
ബ്ലോക്കിലെ ഓരോ ടോക്കണും ഒരേസമയം മറ്റ് എല്ലാ ടോക്കണുകളെയും നിരീക്ഷിക്കുന്നു.
ഈ ബൈഡയറക്ഷണൽ വ്യൂ (bidirectional view) രണ്ട് വശങ്ങളിൽ നിന്നുമുള്ള സന്ദർഭങ്ങൾ (context) മനസ്സിലാക്കാൻ മോഡലിനെ സഹായിക്കുന്നു.

ഹാർഡ്‌വെയർ പെർഫോമൻസ്:

• NVIDIA H100: 1,000+ ടോക്കണുകൾ/സെക്കൻഡ് • NVIDIA DGX Station: 2,000 ടോക്കണുകൾ/സെക്കൻഡ് വരെ • GeForce RTX 5090: ~700 ടോക്കണുകൾ/സെക്കൻഡ് • VRAM ആവശ്യം: ക്വാണ്ടൈസ് ചെയ്യുമ്പോൾ (quantized) ~18GB

എവിടെ ഉപയോഗിക്കാം:

ലോക്കൽ സെറ്റിംഗുകളിൽ DiffusionGemma മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നു. ക്ലൗഡിൽ, കാര്യക്ഷമത നിലനിർത്താൻ കമ്പനികൾ ഒരേസമയം നിരവധി ഉപയോക്താക്കളെ ഒരുമിച്ച് (batch) ഉപയോഗിക്കുന്നു. എന്നാൽ നിങ്ങളുടെ സ്വന്തം കമ്പ്യൂട്ടറിൽ, വാക്കുകൾക്കിടയിൽ GPU പലപ്പോഴും ഉപയോഗമില്ലാതെ ഇരിക്കാറുണ്ട്. മെമ്മറി കുരുക്കുകളെ (memory bottlenecks) നേരിട്ടുള്ള കമ്പ്യൂട്ട് ടാസ്ക്കുകളാക്കി മാറ്റുന്നതിലൂടെ DiffusionGemma ഈ പ്രശ്നം പരിഹരിക്കുന്നു.

ഇതിനായി ഉപയോഗിക്കാം:

കോഡ് ഇൻഫില്ലിംഗ് (Code infilling): ഒരു ഫംഗ്ഷന്റെ മധ്യഭാഗത്ത് കോഡ് ചേർക്കാൻ.
ടെക്സ്റ്റ് എഡിറ്റിംഗ്: ഒരു പാരഗ്രാഫിനുള്ളിലെ വാചകം മാറ്റാൻ.
കൺസ്ട്രയിന്റ് ടാസ്ക്കുകൾ (Constraint tasks): ഒരു ബ്ലോക്ക് മുഴുവനായി ഒത്തുപോകേണ്ട പസിലുകളോ ഗണിത പ്രശ്നങ്ങളോ പരിഹരിക്കാൻ.

ഇതിന്റെ ഗുണദോഷങ്ങളിൽ പ്രധാനപ്പെട്ടത് ഗുണനിലവാരമാണ് (quality). റീസണിംഗിലും (reasoning) കോഡിംഗിലും സാധാരണ Gemma 4-നേക്കാൾ കുറഞ്ഞ സ്കോറാണ് DiffusionGemma നേടുന്നത് എന്ന് ബെഞ്ച്മാർക്കുകൾ കാണിക്കുന്നു. ചിത്രങ്ങളെ അപേക്ഷിച്ച് ഭാഷയെ ഡെഫ്യൂസ് (diffuse) ചെയ്യുന്നത് കൂടുതൽ പ്രയാസകരമാണ്, കാരണം ഒരു തെറ്റായ വാക്ക് പോലും ഒരു വാചകത്തെ മുഴുവനായി നശിപ്പിക്കാൻ സാധ്യതയുണ്ട്.

തീരുമാനം:

ലോക്കൽ ഹാർഡ്‌വെയറിൽ വേഗതയാണ് നിങ്ങളുടെ ലക്ഷ്യമെങ്കിൽ DiffusionGemma ഉപയോഗിക്കുക. ഉയർന്ന കൃത്യതയും (accuracy) ആഴത്തിലുള്ള റീസണിംഗും ആവശ്യമാണെങ്കിൽ സാധാരണ Gemma 4 ഉപയോഗിക്കുക.

സ്രോതസ്സ്: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

Continue reading

ഡിഫ്യൂഷൻജെമ്മ: ഗൂഗിളിന്റെ ഓപ്പൺ എഐ ട്വിസ്റ്റ്

𝗛𝗼𝗴𝘄𝗶𝗹𝗱! 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗟𝗟𝗠 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗚𝗼𝗼𝗴𝗹𝗲 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗔𝗜 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗙𝗼𝗿𝗲𝘃𝗲𝗿

നിങ്ങൾ വിചാരിക്കുന്നതിനേക്കാൾ കൂടുതൽ GPT ചെയ്യുന്നു