𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

ਜ਼ਿਆਦਾਤਰ ਭਾਸ਼ਾ ਮਾਡਲ ਇੱਕ ਸਮੇਂ ਵਿੱਚ ਇੱਕ ਸ਼ਬਦ 'ਤੇ ਕੰਮ ਕਰਦੇ ਹਨ। ਉਹ ਖੱਬੇ ਤੋਂ ਸੱਜੇ ਵੱਲ ਜਾਂਦੇ ਹਨ। ਇਸ ਨਾਲ ਗਤੀ ਦੀ ਇੱਕ ਸੀਮਾ ਬਣ ਜਾਂਦੀ ਹੈ ਕਿਉਂਕਿ ਮਾਡਲ ਨੂੰ ਅਗਲੇ ਸ਼ਬਦ ਨੂੰ ਸ਼ੁਰੂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਹਰੇਕ ਸ਼ਬਦ ਦੇ ਖਤਮ ਹੋਣ ਦੀ ਉਡੀਕ ਕਰਨੀ ਪੈਂਦੀ ਹੈ।

Google DeepMind ਨੇ DiffusionGemma ਨਾਲ ਇਸ ਨੂੰ ਬਦਲ ਦਿੱਤਾ ਹੈ।

ਲਗਾਤਾਰ ਲਿਖਣ (sequential writing) ਦੀ ਬਜਾਏ, ਇਹ denoising ਪ੍ਰਕਿਰਿਆ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ 256 ਟੋਕਨਾਂ ਤੱਕ ਦੇ ਇੱਕ ਬਲਾਕ ਨੂੰ ਲੈਂਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਸਾਰਿਆਂ ਨੂੰ ਇੱਕੋ ਵਾਰ ਵਿੱਚ ਸੁਧਾਰਦਾ ਹੈ। ਇਹ ਤਰੀਕਾ ਇੱਕ ਸਿੰਗਲ NVIDIA H100 'ਤੇ 1,000 ਟੋਕਨ ਪ੍ਰਤੀ ਸੈਕਿੰਡ ਤੋਂ ਵੱਧ ਦੀ ਗਤੀ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਇਹ ਸਟੈਂਡਰਡ ਮਾਡਲਾਂ ਨਾਲੋਂ ਚਾਰ ਗੁਣਾ ਤੇਜ਼ ਹੈ।

ਇਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ:

  • ਮਾਡਲ ਪਲੇਸਹੋਲਡਰ ਟੋਕਨਾਂ ਦੇ ਇੱਕ ਬਲਾਕ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ।
  • ਇਹ ਇਹਨਾਂ ਪਲੇਸਹੋਲਡਰਾਂ ਨੂੰ ਸਾਫ਼ ਕਰਨ ਲਈ ਕਈ ਪਾਸ (passes) ਚਲਾਉਂਦਾ ਹੈ।
  • ਹਰ ਟੋਕਨ ਬਲਾਕ ਵਿੱਚ ਇੱਕੋ ਸਮੇਂ ਬਾਕੀ ਸਾਰੇ ਟੋਕਨਾਂ ਨੂੰ ਦੇਖਦਾ ਹੈ।
  • ਇਹ ਦੋ-ਪੱਖੀ (bidirectional) ਦ੍ਰਿਸ਼ਟੀ ਮਾਡਲ ਨੂੰ ਦੋਵਾਂ ਪਾਸਿਆਂ ਤੋਂ ਸੰਦਰਭ (context) ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ।

ਹਾਰਡਵੇਅਰ ਪ੍ਰਦਰਸ਼ਨ:

• NVIDIA H100: 1,000+ ਟੋਕਨ/ਸੈਕਿੰਡ • NVIDIA DGX Station: 2,000 ਟੋਕਨ/ਸੈਕਿੰਡ ਤੱਕ • GeForce RTX 5090: ~700 ਟੋਕਨ/ਸੈਕਿੰਡ • VRAM ਦੀ ਲੋੜ: quantized ਹੋਣ 'ਤੇ ~18GB

ਇਸਦੀ ਵਰਤੋਂ ਕਿੱਥੇ ਕਰਨੀ ਹੈ:

DiffusionGemma ਸਥਾਨਕ (local) ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਕੰਮ ਕਰਦਾ ਹੈ। ਕਲਾਉਡ ਵਿੱਚ, ਕੰਪਨੀਆਂ ਕੁਸ਼ਲ ਰਹਿਣ ਲਈ ਬਹੁਤ ਸਾਰੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਇਕੱਠਾ ਕਰਦੀਆਂ ਹਨ। ਤੁਹਾਡੇ ਆਪਣੇ ਕੰਪਿਊਟਰ 'ਤੇ, GPU ਅਕਸਰ ਸ਼ਬਦਾਂ ਦੇ ਵਿਚਕਾਰ ਵਿਹਲਾ ਬੈਠਾ ਰਹਿੰਦਾ ਹੈ। DiffusionGemma ਮੈਮੋਰੀ ਦੀਆਂ ਰੁਕਾਵਟਾਂ (bottlenecks) ਨੂੰ ਸਿੱਧੇ ਕੰਪਿਊਟਿੰਗ ਕੰਮਾਂ ਵਿੱਚ ਬਦਲ ਕੇ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਦਾ ਹੈ।

ਇਸਦੀ ਵਰਤੋਂ ਇਹਨਾਂ ਲਈ ਕਰੋ:

  • Code infilling: ਕਿਸੇ ਫੰਕਸ਼ਨ ਦੇ ਵਿਚਕਾਰ ਕੋਡ ਜੋੜਨਾ।
  • Text editing: ਇੱਕ ਪੈਰੇ ਦੇ ਅੰਦਰ ਵਾਕ ਨੂੰ ਬਦਲਣਾ।
  • Constraint tasks: ਅਜਿਹੀਆਂ ਪਹੇਲੀਆਂ ਜਾਂ ਗਣਿਤ ਨੂੰ ਹੱਲ ਕਰਨਾ ਜਿੱਥੇ ਪੂਰੇ ਬਲਾਕ ਦਾ ਆਪਸ ਵਿੱਚ ਮੇਲ ਖਾਣਾ ਜ਼ਰੂਰੀ ਹੋਵੇ।

ਇਸ ਵਿੱਚ ਗੁਣਵੱਤਾ ਨਾਲ ਸਮਝੌਤਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ। ਬੈਂਚਮਾਰਕਸ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ DiffusionGemma ਤਰਕ (reasoning) ਅਤੇ ਕੋਡਿੰਗ ਵਿੱਚ ਸਟੈਂਡਰਡ Gemma 4 ਨਾਲੋਂ ਘੱਟ ਸਕੋਰ ਕਰਦਾ ਹੈ। ਚਿੱਤਰਾਂ (images) ਦੇ ਮੁਕਾਬਲੇ ਭਾਸ਼ਾ ਨੂੰ ਡਿਫਿਊਜ਼ ਕਰਨਾ ਵਧੇਰੇ ਔਖਾ ਹੈ ਕਿਉਂਕਿ ਇੱਕ ਗਲਤ ਸ਼ਬਦ ਪੂਰੇ ਵਾਕ ਨੂੰ ਖਰਾਬ ਕਰ ਸਕਦਾ ਹੈ।

ਫੈਸਲਾ:

ਜੇਕਰ ਤੁਹਾਨੂੰ ਸਥਾਨਕ ਹਾਰਡਵੇਅਰ 'ਤੇ ਤੇਜ਼ੀ ਦੀ ਲੋੜ ਹੈ ਤਾਂ DiffusionGemma ਦੀ ਵਰਤੋਂ ਕਰੋ। ਜੇਕਰ ਤੁਹਾਨੂੰ ਸਭ ਤੋਂ ਉੱਚੀ ਸ਼ੁੱਧਤਾ (accuracy) ਅਤੇ ਡੂੰਘੇ ਤਰਕ ਦੀ ਲੋੜ ਹੈ ਤਾਂ ਸਟੈਂਡਰਡ Gemma 4 ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਸਰੋਤ: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਭਾਈਚਾਰਾ: https://t.me/GyaanSetuAi