𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

Translated for your language. Ler o original.

AI-assisted draft.

há 4 dias2min de leitura

DiffusionGemma: 1.000 tokens por segundo

A maioria dos modelos de linguagem funciona uma palavra por vez. Eles seguem da esquerda para a direita. Isso cria um limite de velocidade, pois o modelo deve esperar que cada palavra termine antes de começar a próxima.

O Google DeepMind mudou isso com o DiffusionGemma.

Em vez de escrita sequencial, ele utiliza um processo de denoising. Ele pega um bloco de até 256 tokens e os refina todos de uma vez. Essa abordagem alcança mais de 1.000 tokens por segundo em uma única NVIDIA H100. Isso é quatro vezes mais rápido que os modelos padrão.

Como funciona:

O modelo começa com um bloco de tokens de preenchimento (placeholders).
Ele executa múltiplas passagens para limpar esses placeholders.
Cada token observa todos os outros tokens no bloco ao mesmo tempo.
Essa visão bidirecional ajuda o modelo a entender o contexto de ambos os lados.

Desempenho de hardware:

• NVIDIA H100: 1.000+ tokens/segundo • NVIDIA DGX Station: até 2.000 tokens/segundo • GeForce RTX 5090: ~700 tokens/segundo • Necessidade de VRAM: ~18GB quando quantizado

Onde usar:

O DiffusionGemma se destaca em ambientes locais. Na nuvem, as empresas agrupam muitos usuários para manter a eficiência. No seu próprio computador, a GPU muitas vezes fica ociosa entre as palavras. O DiffusionGemma resolve isso transformando gargalos de memória em tarefas de computação bruta.

Use para:

Infilling de código: Adicionar código no meio de uma função.
Edição de texto: Alterar uma frase dentro de um parágrafo.
Tarefas com restrições: Resolver quebra-cabeças ou matemática onde todo o bloco deve se encaixar.

A contrapartida é a qualidade. Benchmarks mostram que o DiffusionGemma obtém pontuações mais baixas que o Gemma 4 padrão em raciocínio e codificação. A linguagem é mais difícil de difundir do que imagens, porque uma palavra errada pode arruinar uma frase inteira.

O veredito:

Use o DiffusionGemma se precisar de velocidade em hardware local. Use o Gemma 4 padrão se precisar da maior precisão e raciocínio profundo.

Fonte: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

Comunidade de aprendizado opcional: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

Continuar lendo

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

𝗛𝗼𝗴𝘄𝗶𝗹𝗱! 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗟𝗟𝗠 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

DiffusionGemma 26B: Geração de Texto Paralelo

Google Muda a Geração de IA para Sempre

𝗚𝗣𝗧 𝗗𝗼𝗲𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗬𝗼𝘂 𝗧𝗵𝗶𝗻𝗸