𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

Translated for your language. Leggi l'originale.

AI-assisted draft.

4 giorni fa2min di lettura

DiffusionGemma: 1.000 token al secondo

La maggior parte dei modelli linguistici lavora una parola alla volta. Procedono da sinistra a destra. Questo crea un limite di velocità poiché il modello deve attendere che ogni parola sia completata prima di iniziare la successiva.

Google DeepMind ha cambiato questo approccio con DiffusionGemma.

Invece della scrittura sequenziale, utilizza un processo di denoising. Prende un blocco di fino a 256 token e li perfeziona tutti in una volta sola. Questo approccio raggiunge oltre 1.000 token al secondo su una singola NVIDIA H100. Si tratta di una velocità quattro volte superiore rispetto ai modelli standard.

Come funziona:

Il modello inizia con un blocco di token segnaposto.
Esegue più passaggi per pulire questi segnaposto.
Ogni token analizza tutti gli altri token nel blocco contemporaneamente.
Questa visione bidirezionale aiuta il modello a comprendere il contesto da entrambi i lati.

Prestazioni hardware:

• NVIDIA H100: oltre 1.000 token/secondo • NVIDIA DGX Station: fino a 2.000 token/secondo • GeForce RTX 5090: ~700 token/secondo • Requisito VRAM: ~18GB quando quantizzato

Dove usarlo:

DiffusionGemma eccelle negli ambienti locali. Nel cloud, le aziende raggruppano molti utenti per mantenere l'efficienza. Sul proprio computer, la GPU spesso rimane inattiva tra una parola e l'altra. DiffusionGemma risolve questo problema trasformando i colli di bottiglia della memoria in compiti di calcolo puro.

Usalo per:

Code infilling: aggiungere codice all'interno di una funzione.
Editing di testo: modificare una frase all'interno di un paragrafo.
Task con vincoli: risolvere enigmi o problemi matematici in cui l'intero blocco deve essere coerente.

Il compromesso è la qualità. I benchmark mostrano che DiffusionGemma ottiene punteggi inferiori rispetto allo standard Gemma 4 nel ragionamento e nella programmazione. Il linguaggio è più difficile da diffondere rispetto alle immagini perché una sola parola errata può rovinare un'intera frase.

Il verdetto:

Usa DiffusionGemma se hai bisogno di velocità su hardware locale. Usa lo standard Gemma 4 se hai bisogno della massima precisione e di un ragionamento profondo.

Fonte: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

Community di apprendimento opzionale: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

Continua a leggere

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

𝗛𝗼𝗴𝘄𝗶𝗹𝗱! 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗟𝗟𝗠 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

DiffusionGemma 26B: Generazione di testo in parallelo

𝗚𝗼𝗼𝗴𝗹𝗲 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗔𝗜 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗙𝗼𝗿𝗲𝘃𝗲𝗿

𝗚𝗣𝗧 𝗗𝗼𝗲𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗬𝗼𝘂 𝗧𝗵𝗶𝗻𝗸