DiffusionGemma: 1.000 tokens per seconde

Translated for your language. Read the original.

AI-assisted draft.

4 dagen geleden2min read

DiffusionGemma: 1.000 tokens per seconde

De meeste taalmodellen werken één woord tegelijk. Ze gaan van links naar rechts. Dit creëert een snelheidslimiet omdat het model moet wachten tot elk woord is voltooid voordat het met het volgende kan beginnen.

Google DeepMind heeft dit veranderd met DiffusionGemma.

In plaats van sequentieel schrijven, gebruikt het een denoising-proces. Het neemt een blok van maximaal 256 tokens en verfijnt deze allemaal tegelijk. Deze aanpak bereikt meer dan 1.000 tokens per seconde op een enkele NVIDIA H100. Dat is vier keer sneller dan standaardmodellen.

Hoe het werkt:

Het model begint met een blok placeholder-tokens.
Het voert meerdere passes uit om deze placeholders op te schonen.
Elke token kijkt tegelijkertijd naar elke andere token in het blok.
Dit bidirectionele overzicht helpt het model om context van beide kanten te begrijpen.

Hardwareprestaties:

• NVIDIA H100: 1.000+ tokens/seconde • NVIDIA DGX Station: tot 2.000 tokens/seconde • GeForce RTX 5090: ~700 tokens/seconde • VRAM-behoefte: ~18GB bij kwantisatie

Waar te gebruiken:

DiffusionGemma blinkt uit in lokale omgevingen. In de cloud bundelen bedrijven veel gebruikers samen om efficiënt te blijven. Op je eigen computer staat de GPU vaak stil tussen de woorden door. DiffusionGemma lost dit op door geheugenbottlenecks om te zetten in pure rekentaken.

Gebruik het voor:

Code infilling: Code toevoegen in het midden van een functie.
Tekstbewerking: Een zin binnen een paragraaf wijzigen.
Constraint-taken: Puzzels of wiskunde oplossen waarbij het hele blok op elkaar moet aansluiten.

De keerzijde is de kwaliteit. Benchmarks laten zien dat DiffusionGemma lager scoort dan de standaard Gemma 4 op het gebied van redeneren en coderen. Taal is moeilijker te diffussen dan afbeeldingen, omdat één verkeerd woord een hele zin kan verpesten.

Het eindoordeel:

Gebruik DiffusionGemma als je snelheid nodig hebt op lokale hardware. Gebruik de standaard Gemma 4 als je de hoogste nauwkeurigheid en diepgaand redeneren nodig hebt.

Bron: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

Optionele leercommunity: https://t.me/GyaanSetuAi

DiffusionGemma: 1.000 tokens per seconde

Continue reading

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

𝗛𝗼𝗴𝘄𝗶𝗹𝗱! 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗟𝗟𝗠 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

DiffusionGemma 26B: Parallelle tekstgeneratie

Google verandert AI-generatie voorgoed

𝗚𝗣𝗧 𝗗𝗼𝗲𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗬𝗼𝘂 𝗧𝗵𝗶𝗻𝗸