𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜-𝘄𝗲𝗻𝗱𝗶𝗻𝗴
AI leeft al jaren in twee gescheiden werelden.
De ene kant verwerkt woorden via Large Language Models. De andere kant verwerkt afbeeldingen via diffusiemodellen. Je gebruikt de ene om te schrijven en de andere om te tekenen. Ze spreken zelden met elkaar.
Google verandert dit met DiffusionGemma.
De meeste multimodale systemen zijn onhandig. Ze gebruiken een encoder om naar een afbeelding te kijken, deze om te zetten in een tekstueel verslag, en geven dat verslag vervolgens aan een taalmodel. Dit vertaalproces verliest nuance.
DiffusionGemma slaat de tussenpersoon over.
Het behandelt pixels en woorden als dezelfde taal. Het vertaalt een afbeelding niet naar een samenvatting. Het integreert beeldgegevens direct in de verwerking. Het ziet en denkt tegelijkertijd.
Deze verschuiving is om drie redenen belangrijk:
- Native Reasoning: Je kunt het een complexe grafiek laten zien en vragen naar de zakelijke impact. Het begrijpt de data, niet alleen de labels.
- Spatial Awareness: Laat het een diagram van een machine zien en vraag naar de assemblage-stappen. Het begrijpt hoe onderdelen in elkaar passen.
- Holistische Creatie: In plaats van telkens één woord te voorspellen zoals een metselaar die stenen legt, werkt het als een beeldhouwer. Het begint met digitale ruis en verfijnt het hele idee in één keer.
Deze aanpak brengt ons weg van eenvoudige woordvoorspelling. Het brengt ons richting echte creatie.
Google maakt dit open source. Ze hebben een model met 2 miljard parameters en een variant met 7 miljard parameters uitgebracht. Deze maken gebruik van dezelfde architectuur als hun topmodel Imagen 3.
Dit geeft ontwikkelaars de tools om apps te bouwen die meer kunnen dan alleen praten. Je kunt tools bouwen die zien, creëren en redeneren over verschillende soorten data.
De race gaat niet langer alleen over wie het grootste model heeft. Het gaat over wie de slimste architectuur heeft.
Bron: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m
Optionele leercommunity: https://t.me/GyaanSetuAi