𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

Translated for your language. Lire l'original.

AI-assisted draft.

il y a 4 jours2min de lecture

DiffusionGemma : 1 000 tokens par seconde

La plupart des modèles de langage fonctionnent un mot à la fois. Ils progressent de gauche à droite. Cela crée une limite de vitesse car le modèle doit attendre que chaque mot soit terminé avant de commencer le suivant.

Google DeepMind a changé la donne avec DiffusionGemma.

Au lieu d'une écriture séquentielle, il utilise un processus de débruitage (denoising). Il prend un bloc allant jusqu'à 256 tokens et les affine tous en même temps. Cette approche permet d'atteindre plus de 1 000 tokens par seconde sur un seul NVIDIA H100. C'est quatre fois plus rapide que les modèles standards.

Comment ça marche :

Le modèle commence avec un bloc de tokens de substitution (placeholders).
Il effectue plusieurs passages pour nettoyer ces placeholders.
Chaque token examine tous les autres tokens du bloc simultanément.
Cette vue bidirectionnelle aide le modèle à comprendre le contexte des deux côtés.

Performances matérielles :

• NVIDIA H100 : 1 000+ tokens/seconde • NVIDIA DGX Station : jusqu'à 2 000 tokens/seconde • GeForce RTX 5090 : ~700 tokens/seconde • Besoin en VRAM : ~18 Go une fois quantifié

Où l'utiliser :

DiffusionGemma excelle dans les environnements locaux. Dans le cloud, les entreprises regroupent de nombreux utilisateurs par lots (batching) pour rester efficaces. Sur votre propre ordinateur, le GPU reste souvent inactif entre les mots. DiffusionGemma résout ce problème en transformant les goulots d'étranglement de la mémoire en tâches de calcul pur.

Utilisez-le pour :

Infilling de code : ajouter du code au milieu d'une fonction.
Édition de texte : modifier une phrase à l'intérieur d'un paragraphe.
Tâches à contraintes : résoudre des énigmes ou des problèmes mathématiques où l'ensemble du bloc doit être cohérent.

Le compromis se fait sur la qualité. Les benchmarks montrent que DiffusionGemma obtient des scores inférieurs au modèle standard Gemma 4 en raisonnement et en codage. Le langage est plus difficile à « diffuser » que les images, car un seul mot erroné peut ruiner une phrase entière.

Le verdict :

Utilisez DiffusionGemma si vous avez besoin de vitesse sur du matériel local. Utilisez le modèle standard Gemma 4 si vous avez besoin de la plus haute précision et d'un raisonnement profond.

Source : https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

Continuer la lecture

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

𝗛𝗼𝗴𝘄𝗶𝗹𝗱! 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗟𝗟𝗠 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Google change la génération d'IA pour toujours

𝗚𝗣𝗧 𝗗𝗼𝗲𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗬𝗼𝘂 𝗧𝗵𝗶𝗻𝗸