𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜-𝘄𝗲𝗻𝗱𝗶𝗻𝗴

AI leeft al jaren in twee gescheiden werelden.

De ene kant verwerkt woorden via Large Language Models. De andere kant verwerkt afbeeldingen via diffusiemodellen. Je gebruikt de ene om te schrijven en de andere om te tekenen. Ze spreken zelden met elkaar.

Google verandert dit met DiffusionGemma.

De meeste multimodale systemen zijn onhandig. Ze gebruiken een encoder om naar een afbeelding te kijken, deze om te zetten in een tekstueel verslag, en geven dat verslag vervolgens aan een taalmodel. Dit vertaalproces verliest nuance.

DiffusionGemma slaat de tussenpersoon over.

Het behandelt pixels en woorden als dezelfde taal. Het vertaalt een afbeelding niet naar een samenvatting. Het integreert beeldgegevens direct in de verwerking. Het ziet en denkt tegelijkertijd.

Deze verschuiving is om drie redenen belangrijk:

Deze aanpak brengt ons weg van eenvoudige woordvoorspelling. Het brengt ons richting echte creatie.

Google maakt dit open source. Ze hebben een model met 2 miljard parameters en een variant met 7 miljard parameters uitgebracht. Deze maken gebruik van dezelfde architectuur als hun topmodel Imagen 3.

Dit geeft ontwikkelaars de tools om apps te bouwen die meer kunnen dan alleen praten. Je kunt tools bouwen die zien, creëren en redeneren over verschillende soorten data.

De race gaat niet langer alleen over wie het grootste model heeft. Het gaat over wie de slimste architectuur heeft.

Bron: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Optionele leercommunity: https://t.me/GyaanSetuAi