DiffusionGemma 26B: Generazione di testo in parallelo

Translated for your language. Leggi l'originale.

AI-assisted draft.

GyaanSetu Editorial4 giorni fa1min di lettura

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗚𝗲𝗻𝗲𝗿𝗮𝘇𝗶𝗼𝗻𝗲 𝗱𝗶 𝘁𝗲𝘀𝘁𝗼 𝗶𝗻 𝗽𝗮𝗿𝗮𝗹𝗹𝗲𝗹𝗼

Google DeepMind ha rilasciato DiffusionGemma 26B. Questo modello utilizza la diffusione discreta invece del metodo autoregressivo standard.

La maggior parte dei modelli come GPT o Llama genera testo un token alla volta. Devono eseguire un passaggio completo per ogni singolo token. Questo li rende lenti per l'uso locale o per compiti in tempo reale.

DiffusionGemma funziona in modo diverso. Inizia con un blocco di 256 token casuali e li perfeziona attraverso più passaggi.

Perché questo è importante:

• Velocità: può raggiungere i 1.000 token al secondo su una GPU H100. I modelli standard raggiungono solo 70 token al secondo sullo stesso hardware. • Efficienza: invece di 256 passaggi per 256 token, ne richiede solo circa 10. • Utilizzo della GPU: utilizza la potenza di calcolo in modo più efficace rispetto alla larghezza di banda della memoria.

I compromessi:

La velocità comporta un costo in termini di qualità. DiffusionGemma ottiene punteggi inferiori nei benchmark di ragionamento e coding rispetto allo standard Gemma 4 26B.

Migliori casi d'uso:

Infilling del codice.
Riempimento di schemi JSON.
Completamento di documenti strutturati.
Compiti locali in cui la bassa latenza è la priorità.

Evitare di usarlo per:

API ad alta concorrenza con batch enormi.
Compiti in cui la qualità è l'unica priorità.
Applicazioni che richiedono lo streaming del testo parola per parola.

Questo modello utilizza un'architettura Mixture-of-Experts (MoE). Ha un totale di 25,2B di parametri, ma utilizza solo 3,8B di parametri attivi per passaggio. È possibile eseguire la versione a 4 bit su una RTX 4090 con 24GB di VRAM.

È un modello sperimentale. Usa lo standard Gemma 4 se hai bisogno della massima precisione. Usa DiffusionGemma se hai bisogno di una velocità estrema per applicazioni locali.

Fonte: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-26b-how-googles-text-diffusion-model-generates-tokens-in-parallel-56og

Community di apprendimento opzionale: https://t.me/GyaanSetuAi