𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

📅2 hours ago⏱2 min read

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜-𝘄𝗲𝗻𝗱𝗶𝗻𝗴

AI leeft al jaren in twee gescheiden werelden.

De ene kant verwerkt woorden via Large Language Models. De andere kant verwerkt afbeeldingen via diffusiemodellen. Je gebruikt de ene om te schrijven en de andere om te tekenen. Ze spreken zelden met elkaar.

Google verandert dit met DiffusionGemma.

De meeste multimodale systemen zijn onhandig. Ze gebruiken een encoder om naar een afbeelding te kijken, deze om te zetten in een tekstueel verslag, en geven dat verslag vervolgens aan een taalmodel. Dit vertaalproces verliest nuance.

DiffusionGemma slaat de tussenpersoon over.

Het behandelt pixels en woorden als dezelfde taal. Het vertaalt een afbeelding niet naar een samenvatting. Het integreert beeldgegevens direct in de verwerking. Het ziet en denkt tegelijkertijd.

Deze verschuiving is om drie redenen belangrijk:

Native Reasoning: Je kunt het een complexe grafiek laten zien en vragen naar de zakelijke impact. Het begrijpt de data, niet alleen de labels.
Spatial Awareness: Laat het een diagram van een machine zien en vraag naar de assemblage-stappen. Het begrijpt hoe onderdelen in elkaar passen.
Holistische Creatie: In plaats van telkens één woord te voorspellen zoals een metselaar die stenen legt, werkt het als een beeldhouwer. Het begint met digitale ruis en verfijnt het hele idee in één keer.

Deze aanpak brengt ons weg van eenvoudige woordvoorspelling. Het brengt ons richting echte creatie.

Google maakt dit open source. Ze hebben een model met 2 miljard parameters en een variant met 7 miljard parameters uitgebracht. Deze maken gebruik van dezelfde architectuur als hun topmodel Imagen 3.

Dit geeft ontwikkelaars de tools om apps te bouwen die meer kunnen dan alleen praten. Je kunt tools bouwen die zien, creëren en redeneren over verschillende soorten data.

De race gaat niet langer alleen over wie het grootste model heeft. Het gaat over wie de slimste architectuur heeft.

Bron: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Optionele leercommunity: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

Continue reading

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗧𝗵𝗲 𝗥𝗶𝘀𝗲 𝗼𝗳 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜: 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗶𝗻𝗴 𝗦𝗼𝗳𝘁𝘄𝗮𝗿𝗲 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗺𝗲𝗻𝘁

Hoe Transformers werken

Directe Inversie: Diffusion Editing verbeteren