𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 : 𝗟𝗲 𝘁𝗼𝘂𝗿𝗻𝗮𝗻𝘁 𝗱𝗲 𝗚𝗼𝗼𝗴𝗹𝗲 𝗽𝗼𝘂𝗿 𝗹'𝗜𝗔 𝗼𝗽𝗲𝗻 𝘀𝗼𝘂𝗿𝗰𝗲
L'IA vit dans deux mondes séparés depuis des années.
D'un côté, les mots sont gérés par les grands modèles de langage (LLM). De l'autre, les images sont gérées par les modèles de diffusion. On en utilise un pour écrire et l'autre pour dessiner. Ils communiquent rarement entre eux.
Google change la donne avec DiffusionGemma.
La plupart des systèmes multimodaux sont maladroits. Ils utilisent un encodeur pour analyser une image, la transformer en un rapport textuel, puis transmettre ce rapport à un modèle de langage. Ce processus de traduction fait perdre de la nuance.
DiffusionGemma s'affranchit de l'intermédiaire.
Il traite les pixels et les mots comme un même langage. Il ne traduit pas une image en un résumé. Il intègre les données d'image directement dans son traitement. Il voit et réfléchit en même temps.
Ce changement est crucial pour trois raisons :
- Raisonnement natif : Vous pouvez lui montrer un graphique complexe et lui demander l'impact commercial. Il comprend les données, pas seulement les étiquettes.
- Conscience spatiale : Montrez-lui le schéma d'une machine et demandez-lui les étapes d'assemblage. Il comprend comment les pièces s'emboîtent.
- Création holistique : Au lieu de prédire un mot à la fois comme un maçon posant des briques, il travaille comme un sculpteur. Il part d'un bruit numérique et affine l'idée entière d'un seul coup.
Cette approche nous éloigne de la simple prédiction de mots. Elle nous propulse vers une véritable création.
Google rend cela open source. Ils ont publié un modèle de 2 milliards de paramètres et une variante de 7 milliards de paramètres. Ceux-ci utilisent la même architecture que leur modèle de pointe Imagen 3.
Cela donne aux développeurs les outils pour créer des applications qui font plus que parler. Vous pouvez construire des outils qui voient, créent et raisonnent à travers différents types de données.
La course ne consiste plus seulement à savoir qui possède le plus grand modèle. Il s'agit de savoir qui possède l'architecture la plus intelligente.
Source : https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m
Communauté d'apprentissage optionnelle : https://t.me/GyaanSetuAi