DiffusionGemma: 1.000 tokens por segundo
La mayoría de los modelos de lenguaje funcionan palabra por palabra. Avanzan de izquierda a derecha. Esto crea un límite de velocidad porque el modelo debe esperar a que termine cada palabra antes de comenzar la siguiente.
Google DeepMind cambió esto con DiffusionGemma.
En lugar de una escritura secuencial, utiliza un proceso de eliminación de ruido (denoising). Toma un bloque de hasta 256 tokens y los refina todos a la vez. Este enfoque logra más de 1.000 tokens por segundo en una sola NVIDIA H100. Eso es cuatro veces más rápido que los modelos estándar.
Cómo funciona:
- El modelo comienza con un bloque de tokens de marcador de posición (placeholders).
- Realiza múltiples pasadas para limpiar estos marcadores de posición.
- Cada token analiza todos los demás tokens del bloque al mismo tiempo.
- Esta visión bidireccional ayuda al modelo a comprender el contexto desde ambos lados.
Rendimiento del hardware:
• NVIDIA H100: +1.000 tokens/segundo • NVIDIA DGX Station: hasta 2.000 tokens/segundo • GeForce RTX 5090: ~700 tokens/segundo • Necesidad de VRAM: ~18 GB cuando está cuantizado
Dónde usarlo:
DiffusionGemma destaca en entornos locales. En la nube, las empresas agrupan a muchos usuarios para mantener la eficiencia. En tu propia computadora, la GPU suele quedarse inactiva entre palabras. DiffusionGemma resuelve esto convirtiendo los cuellos de botella de memoria en tareas de computación pura.
Úsalo para:
- Relleno de código (code infilling): Añadir código en medio de una función.
- Edición de texto: Cambiar una oración dentro de un párrafo.
- Tareas con restricciones: Resolver acertijos o matemáticas donde todo el bloque debe encajar.
La contrapartida es la calidad. Los benchmarks muestran que DiffusionGemma obtiene puntuaciones más bajas que el estándar Gemma 4 en razonamiento y programación. El lenguaje es más difícil de difundir que las imágenes porque una sola palabra incorrecta puede arruinar una oración completa.
El veredicto:
Usa DiffusionGemma si necesitas velocidad en hardware local. Usa el estándar Gemma 4 si necesitas la máxima precisión y un razonamiento profundo.
Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi