𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗚𝗲𝗻𝗲𝗿𝗮𝘇𝗶𝗼𝗻𝗲 𝗱𝗶 𝘁𝗲𝘀𝘁𝗼 𝗶𝗻 𝗽𝗮𝗿𝗮𝗹𝗹𝗲𝗹𝗼
Google DeepMind ha rilasciato DiffusionGemma 26B. Questo modello utilizza la diffusione discreta invece del metodo autoregressivo standard.
La maggior parte dei modelli come GPT o Llama genera testo un token alla volta. Devono eseguire un passaggio completo per ogni singolo token. Questo li rende lenti per l'uso locale o per compiti in tempo reale.
DiffusionGemma funziona in modo diverso. Inizia con un blocco di 256 token casuali e li perfeziona attraverso più passaggi.
Perché questo è importante:
• Velocità: può raggiungere i 1.000 token al secondo su una GPU H100. I modelli standard raggiungono solo 70 token al secondo sullo stesso hardware. • Efficienza: invece di 256 passaggi per 256 token, ne richiede solo circa 10. • Utilizzo della GPU: utilizza la potenza di calcolo in modo più efficace rispetto alla larghezza di banda della memoria.
I compromessi:
La velocità comporta un costo in termini di qualità. DiffusionGemma ottiene punteggi inferiori nei benchmark di ragionamento e coding rispetto allo standard Gemma 4 26B.
Migliori casi d'uso:
- Infilling del codice.
- Riempimento di schemi JSON.
- Completamento di documenti strutturati.
- Compiti locali in cui la bassa latenza è la priorità.
Evitare di usarlo per:
- API ad alta concorrenza con batch enormi.
- Compiti in cui la qualità è l'unica priorità.
- Applicazioni che richiedono lo streaming del testo parola per parola.
Questo modello utilizza un'architettura Mixture-of-Experts (MoE). Ha un totale di 25,2B di parametri, ma utilizza solo 3,8B di parametri attivi per passaggio. È possibile eseguire la versione a 4 bit su una RTX 4090 con 24GB di VRAM.
È un modello sperimentale. Usa lo standard Gemma 4 se hai bisogno della massima precisione. Usa DiffusionGemma se hai bisogno di una velocità estrema per applicazioni locali.
Community di apprendimento opzionale: https://t.me/GyaanSetuAi