𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

📅2 hours ago⏱2 min read

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻-𝗔𝗜-𝗧𝘄𝗶𝘀𝘁

KI existiert seit Jahren in zwei getrennten Welten.

Die eine Seite verarbeitet Wörter durch Large Language Models. Die andere Seite verarbeitet Bilder durch Diffusionsmodelle. Man nutzt das eine zum Schreiben und das andere zum Zeichnen. Sie kommunizieren selten miteinander.

Google ändert dies mit DiffusionGemma.

Die meisten multimodalen Systeme sind schwerfällig. Sie nutzen einen Encoder, um ein Bild zu betrachten, es in einen Textbericht umzuwandeln und diesen Bericht dann an ein Sprachmodell weiterzugeben. Bei diesem Übersetzungsprozess geht die Nuancierung verloren.

DiffusionGemma verzichtet auf den Vermittler.

Es behandelt Pixel und Wörter als dieselbe Sprache. Es übersetzt ein Bild nicht in eine Zusammenfassung. Es integriert Bilddaten direkt in seine Verarbeitung. Es sieht und denkt gleichzeitig.

Dieser Wandel ist aus drei Gründen wichtig:

Natives Reasoning: Man kann ihm ein komplexes Diagramm zeigen und nach den geschäftlichen Auswirkungen fragen. Es versteht die Daten, nicht nur die Beschriftungen.
Räumliches Verständnis: Zeigen Sie ihm eine Skizze einer Maschine und fragen Sie nach den Montageschritten. Es versteht, wie die Teile zusammenpassen.
Ganzheitliche Kreation: Anstatt ein Wort nach dem anderen vorherzusagen – wie ein Maurer, der Ziegel legt –, arbeitet es wie ein Bildhauer. Es beginnt mit digitalem Rauschen und verfeinert die gesamte Idee auf einmal.

Dieser Ansatz führt uns weg von der einfachen Wortvorhersage. Er führt uns hin zu echter Kreation.

Google macht dies Open Source. Sie haben ein Modell mit 2 Milliarden Parametern und eine Variante mit 7 Milliarden Parametern veröffentlicht. Diese nutzen dieselbe Architektur wie ihr erstklassiges Imagen 3 Modell.

Dies gibt Entwicklern die Werkzeuge an die Hand, um Apps zu bauen, die mehr können als nur zu sprechen. Man kann Tools entwickeln, die sehen, erschaffen und über verschiedene Datentypen hinweg schlussfolgern können.

Im Wettlauf geht es nicht mehr nur darum, wer das größte Modell hat. Es geht darum, wer die intelligenteste Architektur besitzt.

Quelle: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

Optionale Lern-Community: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

Continue reading

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗧𝗵𝗲 𝗥𝗶𝘀𝗲 𝗼𝗳 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜: 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗶𝗻𝗴 𝗦𝗼𝗳𝘁𝘄𝗮𝗿𝗲 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗺𝗲𝗻𝘁

Wie Transformer funktionieren

Direkte Inversion: Optimierung des Diffusion-Editings