DiffusionGemma: 1.000 tokens por segundo

A maioria dos modelos de linguagem funciona uma palavra por vez. Eles seguem da esquerda para a direita. Isso cria um limite de velocidade, pois o modelo deve esperar que cada palavra termine antes de começar a próxima.

O Google DeepMind mudou isso com o DiffusionGemma.

Em vez de escrita sequencial, ele utiliza um processo de denoising. Ele pega um bloco de até 256 tokens e os refina todos de uma vez. Essa abordagem alcança mais de 1.000 tokens por segundo em uma única NVIDIA H100. Isso é quatro vezes mais rápido que os modelos padrão.

Como funciona:

  • O modelo começa com um bloco de tokens de preenchimento (placeholders).
  • Ele executa múltiplas passagens para limpar esses placeholders.
  • Cada token observa todos os outros tokens no bloco ao mesmo tempo.
  • Essa visão bidirecional ajuda o modelo a entender o contexto de ambos os lados.

Desempenho de hardware:

• NVIDIA H100: 1.000+ tokens/segundo • NVIDIA DGX Station: até 2.000 tokens/segundo • GeForce RTX 5090: ~700 tokens/segundo • Necessidade de VRAM: ~18GB quando quantizado

Onde usar:

O DiffusionGemma se destaca em ambientes locais. Na nuvem, as empresas agrupam muitos usuários para manter a eficiência. No seu próprio computador, a GPU muitas vezes fica ociosa entre as palavras. O DiffusionGemma resolve isso transformando gargalos de memória em tarefas de computação bruta.

Use para:

  • Infilling de código: Adicionar código no meio de uma função.
  • Edição de texto: Alterar uma frase dentro de um parágrafo.
  • Tarefas com restrições: Resolver quebra-cabeças ou matemática onde todo o bloco deve se encaixar.

A contrapartida é a qualidade. Benchmarks mostram que o DiffusionGemma obtém pontuações mais baixas que o Gemma 4 padrão em raciocínio e codificação. A linguagem é mais difícil de difundir do que imagens, porque uma palavra errada pode arruinar uma frase inteira.

O veredito:

Use o DiffusionGemma se precisar de velocidade em hardware local. Use o Gemma 4 padrão se precisar da maior precisão e raciocínio profundo.

Fonte: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi