DiffusionGemma : 1 000 tokens par seconde

La plupart des modèles de langage fonctionnent un mot à la fois. Ils progressent de gauche à droite. Cela crée une limite de vitesse car le modèle doit attendre que chaque mot soit terminé avant de commencer le suivant.

Google DeepMind a changé la donne avec DiffusionGemma.

Au lieu d'une écriture séquentielle, il utilise un processus de débruitage (denoising). Il prend un bloc allant jusqu'à 256 tokens et les affine tous en même temps. Cette approche permet d'atteindre plus de 1 000 tokens par seconde sur un seul NVIDIA H100. C'est quatre fois plus rapide que les modèles standards.

Comment ça marche :

  • Le modèle commence avec un bloc de tokens de substitution (placeholders).
  • Il effectue plusieurs passages pour nettoyer ces placeholders.
  • Chaque token examine tous les autres tokens du bloc simultanément.
  • Cette vue bidirectionnelle aide le modèle à comprendre le contexte des deux côtés.

Performances matérielles :

• NVIDIA H100 : 1 000+ tokens/seconde • NVIDIA DGX Station : jusqu'à 2 000 tokens/seconde • GeForce RTX 5090 : ~700 tokens/seconde • Besoin en VRAM : ~18 Go une fois quantifié

Où l'utiliser :

DiffusionGemma excelle dans les environnements locaux. Dans le cloud, les entreprises regroupent de nombreux utilisateurs par lots (batching) pour rester efficaces. Sur votre propre ordinateur, le GPU reste souvent inactif entre les mots. DiffusionGemma résout ce problème en transformant les goulots d'étranglement de la mémoire en tâches de calcul pur.

Utilisez-le pour :

  • Infilling de code : ajouter du code au milieu d'une fonction.
  • Édition de texte : modifier une phrase à l'intérieur d'un paragraphe.
  • Tâches à contraintes : résoudre des énigmes ou des problèmes mathématiques où l'ensemble du bloc doit être cohérent.

Le compromis se fait sur la qualité. Les benchmarks montrent que DiffusionGemma obtient des scores inférieurs au modèle standard Gemma 4 en raisonnement et en codage. Le langage est plus difficile à « diffuser » que les images, car un seul mot erroné peut ruiner une phrase entière.

Le verdict :

Utilisez DiffusionGemma si vous avez besoin de vitesse sur du matériel local. Utilisez le modèle standard Gemma 4 si vous avez besoin de la plus haute précision et d'un raisonnement profond.

Source : https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi