𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

Translated for your language. Leer el original.

AI-assisted draft.

hace 4 días2min de lectura

DiffusionGemma: 1.000 tokens por segundo

La mayoría de los modelos de lenguaje funcionan palabra por palabra. Avanzan de izquierda a derecha. Esto crea un límite de velocidad porque el modelo debe esperar a que termine cada palabra antes de comenzar la siguiente.

Google DeepMind cambió esto con DiffusionGemma.

En lugar de una escritura secuencial, utiliza un proceso de eliminación de ruido (denoising). Toma un bloque de hasta 256 tokens y los refina todos a la vez. Este enfoque logra más de 1.000 tokens por segundo en una sola NVIDIA H100. Eso es cuatro veces más rápido que los modelos estándar.

Cómo funciona:

El modelo comienza con un bloque de tokens de marcador de posición (placeholders).
Realiza múltiples pasadas para limpiar estos marcadores de posición.
Cada token analiza todos los demás tokens del bloque al mismo tiempo.
Esta visión bidireccional ayuda al modelo a comprender el contexto desde ambos lados.

Rendimiento del hardware:

• NVIDIA H100: +1.000 tokens/segundo • NVIDIA DGX Station: hasta 2.000 tokens/segundo • GeForce RTX 5090: ~700 tokens/segundo • Necesidad de VRAM: ~18 GB cuando está cuantizado

Dónde usarlo:

DiffusionGemma destaca en entornos locales. En la nube, las empresas agrupan a muchos usuarios para mantener la eficiencia. En tu propia computadora, la GPU suele quedarse inactiva entre palabras. DiffusionGemma resuelve esto convirtiendo los cuellos de botella de memoria en tareas de computación pura.

Úsalo para:

Relleno de código (code infilling): Añadir código en medio de una función.
Edición de texto: Cambiar una oración dentro de un párrafo.
Tareas con restricciones: Resolver acertijos o matemáticas donde todo el bloque debe encajar.

La contrapartida es la calidad. Los benchmarks muestran que DiffusionGemma obtiene puntuaciones más bajas que el estándar Gemma 4 en razonamiento y programación. El lenguaje es más difícil de difundir que las imágenes porque una sola palabra incorrecta puede arruinar una oración completa.

El veredicto:

Usa DiffusionGemma si necesitas velocidad en hardware local. Usa el estándar Gemma 4 si necesitas la máxima precisión y un razonamiento profundo.

Fuente: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

Seguir leyendo

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

𝗛𝗼𝗴𝘄𝗶𝗹𝗱! 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗟𝗟𝗠 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Google cambia la generación de IA para siempre

𝗚𝗣𝗧 𝗗𝗼𝗲𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗬𝗼𝘂 𝗧𝗵𝗶𝗻𝗸