𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱
മിക്ക ലാംഗ്വേജ് മോഡലുകളും ഓരോ വാക്കുകളായിട്ടാണ് പ്രവർത്തിക്കുന്നത്. അവ ഇടത്തുനിന്ന് വലത്തോട്ട് നീങ്ങുന്നു. ഓരോ വാക്കും പൂർത്തിയാകുന്നത് വരെ അടുത്ത വാക്കിനായി മോഡൽ കാത്തുനിൽക്കേണ്ടി വരുന്നത് ഒരു വേഗത പരിധി (speed limit) സൃഷ്ടിക്കുന്നു.
Google DeepMind DiffusionGemma ഉപയോഗിച്ച് ഇത് മാറ്റിമറിച്ചു.
ക്രമമായ എഴുത്തിന് (sequential writing) പകരം, ഇത് ഒരു ഡെനോയിസിംഗ് (denoising) പ്രക്രിയയാണ് ഉപയോഗിക്കുന്നത്. ഇത് 256 ടോക്കണുകൾ വരെയുള്ള ഒരു ബ്ലോക്ക് എടുക്കുകയും അവയെല്ലാം ഒരേസമയം പരിഷ്കരിക്കുകയും ചെയ്യുന്നു. ഈ രീതിയിലൂടെ ഒരു സിംഗിൾ NVIDIA H100-ൽ സെക്കൻഡിൽ 1,000-ലധികം ടോക്കണുകൾ കൈവരിക്കാൻ സാധിക്കുന്നു. ഇത് സാധാരണ മോഡലുകളേക്കാൾ നാല് മടങ്ങ് വേഗതയുള്ളതാണ്.
ഇത് എങ്ങനെ പ്രവർത്തിക്കുന്നു:
- മോഡൽ പ്ലേസ്ഹോൾഡർ ടോക്കണുകളുടെ (placeholder tokens) ഒരു ബ്ലോക്കോടെയാണ് ആരംഭിക്കുന്നത്.
- ഈ പ്ലേസ്ഹോൾഡറുകളെ വൃത്തിയാക്കാൻ ഇത് ഒന്നിലധികം തവണ പ്രവർത്തിക്കുന്നു.
- ബ്ലോക്കിലെ ഓരോ ടോക്കണും ഒരേസമയം മറ്റ് എല്ലാ ടോക്കണുകളെയും നിരീക്ഷിക്കുന്നു.
- ഈ ബൈഡയറക്ഷണൽ വ്യൂ (bidirectional view) രണ്ട് വശങ്ങളിൽ നിന്നുമുള്ള സന്ദർഭങ്ങൾ (context) മനസ്സിലാക്കാൻ മോഡലിനെ സഹായിക്കുന്നു.
ഹാർഡ്വെയർ പെർഫോമൻസ്:
• NVIDIA H100: 1,000+ ടോക്കണുകൾ/സെക്കൻഡ് • NVIDIA DGX Station: 2,000 ടോക്കണുകൾ/സെക്കൻഡ് വരെ • GeForce RTX 5090: ~700 ടോക്കണുകൾ/സെക്കൻഡ് • VRAM ആവശ്യം: ക്വാണ്ടൈസ് ചെയ്യുമ്പോൾ (quantized) ~18GB
എവിടെ ഉപയോഗിക്കാം:
ലോക്കൽ സെറ്റിംഗുകളിൽ DiffusionGemma മികച്ച പ്രകടനം കാഴ്ചവെക്കുന്നു. ക്ലൗഡിൽ, കാര്യക്ഷമത നിലനിർത്താൻ കമ്പനികൾ ഒരേസമയം നിരവധി ഉപയോക്താക്കളെ ഒരുമിച്ച് (batch) ഉപയോഗിക്കുന്നു. എന്നാൽ നിങ്ങളുടെ സ്വന്തം കമ്പ്യൂട്ടറിൽ, വാക്കുകൾക്കിടയിൽ GPU പലപ്പോഴും ഉപയോഗമില്ലാതെ ഇരിക്കാറുണ്ട്. മെമ്മറി കുരുക്കുകളെ (memory bottlenecks) നേരിട്ടുള്ള കമ്പ്യൂട്ട് ടാസ്ക്കുകളാക്കി മാറ്റുന്നതിലൂടെ DiffusionGemma ഈ പ്രശ്നം പരിഹരിക്കുന്നു.
ഇതിനായി ഉപയോഗിക്കാം:
- കോഡ് ഇൻഫില്ലിംഗ് (Code infilling): ഒരു ഫംഗ്ഷന്റെ മധ്യഭാഗത്ത് കോഡ് ചേർക്കാൻ.
- ടെക്സ്റ്റ് എഡിറ്റിംഗ്: ഒരു പാരഗ്രാഫിനുള്ളിലെ വാചകം മാറ്റാൻ.
- കൺസ്ട്രയിന്റ് ടാസ്ക്കുകൾ (Constraint tasks): ഒരു ബ്ലോക്ക് മുഴുവനായി ഒത്തുപോകേണ്ട പസിലുകളോ ഗണിത പ്രശ്നങ്ങളോ പരിഹരിക്കാൻ.
ഇതിന്റെ ഗുണദോഷങ്ങളിൽ പ്രധാനപ്പെട്ടത് ഗുണനിലവാരമാണ് (quality). റീസണിംഗിലും (reasoning) കോഡിംഗിലും സാധാരണ Gemma 4-നേക്കാൾ കുറഞ്ഞ സ്കോറാണ് DiffusionGemma നേടുന്നത് എന്ന് ബെഞ്ച്മാർക്കുകൾ കാണിക്കുന്നു. ചിത്രങ്ങളെ അപേക്ഷിച്ച് ഭാഷയെ ഡെഫ്യൂസ് (diffuse) ചെയ്യുന്നത് കൂടുതൽ പ്രയാസകരമാണ്, കാരണം ഒരു തെറ്റായ വാക്ക് പോലും ഒരു വാചകത്തെ മുഴുവനായി നശിപ്പിക്കാൻ സാധ്യതയുണ്ട്.
തീരുമാനം:
ലോക്കൽ ഹാർഡ്വെയറിൽ വേഗതയാണ് നിങ്ങളുടെ ലക്ഷ്യമെങ്കിൽ DiffusionGemma ഉപയോഗിക്കുക. ഉയർന്ന കൃത്യതയും (accuracy) ആഴത്തിലുള്ള റീസണിംഗും ആവശ്യമാണെങ്കിൽ സാധാരണ Gemma 4 ഉപയോഗിക്കുക.
ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi