DiffusionGemma: 1.000 tokens por segundo
A maioria dos modelos de linguagem funciona uma palavra por vez. Eles seguem da esquerda para a direita. Isso cria um limite de velocidade, pois o modelo deve esperar que cada palavra termine antes de começar a próxima.
O Google DeepMind mudou isso com o DiffusionGemma.
Em vez de escrita sequencial, ele utiliza um processo de denoising. Ele pega um bloco de até 256 tokens e os refina todos de uma vez. Essa abordagem alcança mais de 1.000 tokens por segundo em uma única NVIDIA H100. Isso é quatro vezes mais rápido que os modelos padrão.
Como funciona:
- O modelo começa com um bloco de tokens de preenchimento (placeholders).
- Ele executa múltiplas passagens para limpar esses placeholders.
- Cada token observa todos os outros tokens no bloco ao mesmo tempo.
- Essa visão bidirecional ajuda o modelo a entender o contexto de ambos os lados.
Desempenho de hardware:
• NVIDIA H100: 1.000+ tokens/segundo • NVIDIA DGX Station: até 2.000 tokens/segundo • GeForce RTX 5090: ~700 tokens/segundo • Necessidade de VRAM: ~18GB quando quantizado
Onde usar:
O DiffusionGemma se destaca em ambientes locais. Na nuvem, as empresas agrupam muitos usuários para manter a eficiência. No seu próprio computador, a GPU muitas vezes fica ociosa entre as palavras. O DiffusionGemma resolve isso transformando gargalos de memória em tarefas de computação bruta.
Use para:
- Infilling de código: Adicionar código no meio de uma função.
- Edição de texto: Alterar uma frase dentro de um parágrafo.
- Tarefas com restrições: Resolver quebra-cabeças ou matemática onde todo o bloco deve se encaixar.
A contrapartida é a qualidade. Benchmarks mostram que o DiffusionGemma obtém pontuações mais baixas que o Gemma 4 padrão em raciocínio e codificação. A linguagem é mais difícil de difundir do que imagens, porque uma palavra errada pode arruinar uma frase inteira.
O veredito:
Use o DiffusionGemma se precisar de velocidade em hardware local. Use o Gemma 4 padrão se precisar da maior precisão e raciocínio profundo.
Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi