DiffusionGemma: 1.000 token al secondo

La maggior parte dei modelli linguistici lavora una parola alla volta. Procedono da sinistra a destra. Questo crea un limite di velocità poiché il modello deve attendere che ogni parola sia completata prima di iniziare la successiva.

Google DeepMind ha cambiato questo approccio con DiffusionGemma.

Invece della scrittura sequenziale, utilizza un processo di denoising. Prende un blocco di fino a 256 token e li perfeziona tutti in una volta sola. Questo approccio raggiunge oltre 1.000 token al secondo su una singola NVIDIA H100. Si tratta di una velocità quattro volte superiore rispetto ai modelli standard.

Come funziona:

  • Il modello inizia con un blocco di token segnaposto.
  • Esegue più passaggi per pulire questi segnaposto.
  • Ogni token analizza tutti gli altri token nel blocco contemporaneamente.
  • Questa visione bidirezionale aiuta il modello a comprendere il contesto da entrambi i lati.

Prestazioni hardware:

• NVIDIA H100: oltre 1.000 token/secondo • NVIDIA DGX Station: fino a 2.000 token/secondo • GeForce RTX 5090: ~700 token/secondo • Requisito VRAM: ~18GB quando quantizzato

Dove usarlo:

DiffusionGemma eccelle negli ambienti locali. Nel cloud, le aziende raggruppano molti utenti per mantenere l'efficienza. Sul proprio computer, la GPU spesso rimane inattiva tra una parola e l'altra. DiffusionGemma risolve questo problema trasformando i colli di bottiglia della memoria in compiti di calcolo puro.

Usalo per:

  • Code infilling: aggiungere codice all'interno di una funzione.
  • Editing di testo: modificare una frase all'interno di un paragrafo.
  • Task con vincoli: risolvere enigmi o problemi matematici in cui l'intero blocco deve essere coerente.

Il compromesso è la qualità. I benchmark mostrano che DiffusionGemma ottiene punteggi inferiori rispetto allo standard Gemma 4 nel ragionamento e nella programmazione. Il linguaggio è più difficile da diffondere rispetto alle immagini perché una sola parola errata può rovinare un'intera frase.

Il verdetto:

Usa DiffusionGemma se hai bisogno di velocità su hardware locale. Usa lo standard Gemma 4 se hai bisogno della massima precisione e di un ragionamento profondo.

Fonte: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

Community di apprendimento opzionale: https://t.me/GyaanSetuAi