𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

ಹೆಚ್ಚಿನ ಭಾಷಾ ಮಾದರಿಗಳು (language models) ಒಂದೊಂದೇ ಪದದ ಮೂಲಕ ಕೆಲಸ ಮಾಡುತ್ತವೆ. ಅವು ಎಡದಿಂದ ಬಲಕ್ಕೆ ಚಲಿಸುತ್ತವೆ. ಇದು ವೇಗದ ಮಿತಿಯನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ, ಏಕೆಂದರೆ ಮುಂದಿನ ಪದವನ್ನು ಪ್ರಾರಂಭಿಸುವ ಮೊದಲು ಮಾದರಿಯು ಪ್ರತಿ ಪದವು ಪೂರ್ಣಗೊಳ್ಳುವವರೆಗೆ ಕಾಯಬೇಕಾಗುತ್ತದೆ.

Google DeepMind DiffusionGemma ಮೂಲಕ ಇದನ್ನು ಬದಲಾಯಿಸಿದೆ.

ಅನುಕ್ರಮ ಬರವಣಿಗೆಯ (sequential writing) ಬದಲಿಗೆ, ಇದು denoising ಪ್ರಕ್ರಿಯೆಯನ್ನು ಬಳಸುತ್ತದೆ. ಇದು 256 ಟೋಕನ್‌ಗಳವರೆಗಿನ ಒಂದು ಬ್ಲಾಕ್ ಅನ್ನು ತೆಗೆದುಕೊಂಡು ಅವುಗಳನ್ನು ಏಕಕಾಲದಲ್ಲಿ ಪರಿಷ್ಕರಿಸುತ್ತದೆ. ಈ ವಿಧಾನವು ಏಕದಿನ NVIDIA H100 ಮೇಲೆ ಪ್ರತಿ ಸೆಕೆಂಡಿಗೆ 1,000 ಕ್ಕೂ ಹೆಚ್ಚು ಟೋಕನ್‌ಗಳನ್ನು ಸಾಧಿಸುತ್ತದೆ. ಇದು ಸಾಮಾನ್ಯ ಮಾದರಿಗಳಿಗಿಂತ ನಾಲ್ಕು ಪಟ್ಟು ವೇಗವಾಗಿದೆ.

ಇದು ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ:

  • ಮಾದರಿಯು ಪ್ಲೇಸ್‌ಹೋಲ್ಡರ್ (placeholder) ಟೋಕನ್‌ಗಳ ಬ್ಲಾಕ್‌ನೊಂದಿಗೆ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ.
  • ಈ ಪ್ಲೇಸ್‌ಹೋಲ್ಡರ್‌ಗಳನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಲು ಇದು ಹಲವಾರು ಹಂತಗಳನ್ನು (passes) ನಡೆಸುತ್ತದೆ.
  • ಪ್ರತಿ ಟೋಕನ್ ಬ್ಲಾಕ್‌ನಲ್ಲಿರುವ ಇತರ ಎಲ್ಲಾ ಟೋಕನ್‌ಗಳನ್ನು ಏಕಕಾಲದಲ್ಲಿ ಗಮನಿಸುತ್ತದೆ.
  • ಈ ದ್ವಿಮುಖ ನೋಟವು (bidirectional view) ಮಾದರಿಯು ಎರಡೂ ಕಡೆಯಿಂದ ಸಂದರ್ಭವನ್ನು (context) ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.

ಹಾರ್ಡ್‌ವೇರ್ ಕಾರ್ಯಕ್ಷಮತೆ:

• NVIDIA H100: 1,000+ ಟೋಕನ್‌ಗಳು/ಸೆಕೆಂಡ್ • NVIDIA DGX Station: 2,000 ಟೋಕನ್‌ಗಳು/ಸೆಕೆಂಡ್ ವರೆಗೆ • GeForce RTX 5090: ~700 ಟೋಕನ್‌ಗಳು/ಸೆಕೆಂಡ್ • VRAM ಅಗತ್ಯ: quantized ಮಾಡಿದಾಗ ~18GB

ಇದನ್ನು ಎಲ್ಲಿ ಬಳಸಬಹುದು:

DiffusionGemma ಸ್ಥಳೀಯ ಸೆಟ್ಟಿಂಗ್‌ಗಳಲ್ಲಿ (local settings) ಅತ್ಯುತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಕ್ಲೌಡ್‌ನಲ್ಲಿ, ಕಂಪನಿಗಳು ದಕ್ಷತೆಯನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳಲು ಅನೇಕ ಬಳಕೆದಾರರನ್ನು ಒಟ್ಟಾಗಿ ಗುಂಪು ಮಾಡುತ್ತಾರೆ (batch). ನಿಮ್ಮ ಸ್ವಂತ ಕಂಪ್ಯೂಟರ್‌ನಲ್ಲಿ, ಪದಗಳ ನಡುವೆ GPU ಹೆಚ್ಚಾಗಿ ನಿಷ್ಕ್ರಿಯವಾಗಿರುತ್ತದೆ (idle). DiffusionGemma ಮೆಮೊರಿ bottleneckಗಳನ್ನು ನೇರ ಕಂಪ್ಯೂಟ್ ಕಾರ್ಯಗಳಾಗಿ ಪರಿವರ್ತಿಸುವ ಮೂಲಕ ಇದನ್ನು ಪರಿಹರಿಸುತ್ತದೆ.

ಇದನ್ನು ಇವುಗಳಿಗಾಗಿ ಬಳಸಿ:

  • Code infilling: ಒಂದು ಫಂಕ್ಷನ್‌ನ ಮಧ್ಯಭಾಗಕ್ಕೆ ಕೋಡ್ ಅನ್ನು ಸೇರಿಸುವುದು.
  • Text editing: ಪ್ಯಾರಾಗ್ರಾಫ್ ಒಳಗಿನ ವಾಕ್ಯವನ್ನು ಬದಲಾಯಿಸುವುದು.
  • Constraint tasks: ಇಡೀ ಬ್ಲಾಕ್ ಒಟ್ಟಿಗೆ ಹೊಂದಿಕೆಯಾಗಬೇಕಾದ ಒಗಟುಗಳು ಅಥವಾ ಗಣಿತದ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸುವುದು.

ಇದರ ಮರುಪರಿಣಾಮ (trade-off) ಗುಣಮಟ್ಟ. ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳು DiffusionGemma ತರ್ಕ (reasoning) ಮತ್ತು ಕೋಡಿಂಗ್‌ನಲ್ಲಿ ಸಾಮಾನ್ಯ Gemma 4 ಗಿಂತ ಕಡಿಮೆ ಅಂಕಗಳನ್ನು ಪಡೆದಿದೆ ಎಂದು ತೋರಿಸುತ್ತವೆ. ಚಿತ್ರಗಳಿಗಿಂತ ಭಾಷೆಯನ್ನು diffuse ಮಾಡುವುದು ಹೆಚ್ಚು ಕಷ್ಟಕರವಾಗಿದೆ, ಏಕೆಂದರೆ ಒಂದು ತಪ್ಪಾದ ಪದವು ಇಡೀ ವಾಕ್ಯವನ್ನು ಹಾಳುಮಾಡಬಹುದು.

ತೀರ್ಪು:

ಸ್ಥಳೀಯ ಹಾರ್ಡ್‌ವೇರ್‌ನಲ್ಲಿ ವೇಗ ಬೇಕಾದಲ್ಲಿ DiffusionGemma ಬಳಸಿ. ನಿಮಗೆ ಅತ್ಯುನ್ನತ ನಿಖರತೆ ಮತ್ತು ಆಳವಾದ ತರ್ಕ ಬೇಕಾದಲ್ಲಿ ಸಾಮಾನ್ಯ Gemma 4 ಬಳಸಿ.

Source: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

Optional learning community: https://t.me/GyaanSetuAi