DiffusionGemma: 1.000 tokens per seconde
De meeste taalmodellen werken één woord tegelijk. Ze gaan van links naar rechts. Dit creëert een snelheidslimiet omdat het model moet wachten tot elk woord is voltooid voordat het met het volgende kan beginnen.
Google DeepMind heeft dit veranderd met DiffusionGemma.
In plaats van sequentieel schrijven, gebruikt het een denoising-proces. Het neemt een blok van maximaal 256 tokens en verfijnt deze allemaal tegelijk. Deze aanpak bereikt meer dan 1.000 tokens per seconde op een enkele NVIDIA H100. Dat is vier keer sneller dan standaardmodellen.
Hoe het werkt:
- Het model begint met een blok placeholder-tokens.
- Het voert meerdere passes uit om deze placeholders op te schonen.
- Elke token kijkt tegelijkertijd naar elke andere token in het blok.
- Dit bidirectionele overzicht helpt het model om context van beide kanten te begrijpen.
Hardwareprestaties:
• NVIDIA H100: 1.000+ tokens/seconde • NVIDIA DGX Station: tot 2.000 tokens/seconde • GeForce RTX 5090: ~700 tokens/seconde • VRAM-behoefte: ~18GB bij kwantisatie
Waar te gebruiken:
DiffusionGemma blinkt uit in lokale omgevingen. In de cloud bundelen bedrijven veel gebruikers samen om efficiënt te blijven. Op je eigen computer staat de GPU vaak stil tussen de woorden door. DiffusionGemma lost dit op door geheugenbottlenecks om te zetten in pure rekentaken.
Gebruik het voor:
- Code infilling: Code toevoegen in het midden van een functie.
- Tekstbewerking: Een zin binnen een paragraaf wijzigen.
- Constraint-taken: Puzzels of wiskunde oplossen waarbij het hele blok op elkaar moet aansluiten.
De keerzijde is de kwaliteit. Benchmarks laten zien dat DiffusionGemma lager scoort dan de standaard Gemma 4 op het gebied van redeneren en coderen. Taal is moeilijker te diffussen dan afbeeldingen, omdat één verkeerd woord een hele zin kan verpesten.
Het eindoordeel:
Gebruik DiffusionGemma als je snelheid nodig hebt op lokale hardware. Gebruik de standaard Gemma 4 als je de hoogste nauwkeurigheid en diepgaand redeneren nodig hebt.
Optionele leercommunity: https://t.me/GyaanSetuAi