DiffusionGemma: התפנית של Google ב-AI בקוד פתוח

AI חי בשני עולמות נפרדים במשך שנים.

צד אחד מטפל במילים באמצעות מודלי שפה גדולים (Large Language Models). הצד השני מטפל בתמונות באמצעות מודלי דיפוזיה (diffusion models). משתמשים באחד כדי לכתוב ובשני כדי לצייר. הם כמעט ולא מתקשרים זה עם זה.

Google משנה זאת באמצעות DiffusionGemma.

רוב המערכות הרב-מודאליות (multimodal) הן מגושמות. הן משתמשות בקידוד (encoder) כדי להסתכל על תמונה, הופכות אותה לדו"ח טקסטואלי, ואז מעבירות את הדו"ח הזה למודל שפה. תהליך התרגום הזה מאבד ניואנסים.

DiffusionGemma מדלג על המתווך.

הוא מתייחס לפיקסלים ולמילים כאותה שפה. הוא לא מתרגם תמונה לסיכום, אלא משלב את נתוני התמונה ישירות בעיבוד שלו. הוא רואה וחושב בו-זמנית.

לשינוי הזה יש חשיבות משלושה סיבות:

הגישה הזו מסיטה אותנו מחיזוי מילים פשוט לעבר יצירה אמיתית.

Google הופכת את זה לקוד פתוח. הם שחררו מודל של 2 מיליארד פרמטרים וגרסה של 7 מיליארד פרמטרים. אלו משתמשים באותה ארכיטקטורה כמו מודל ה-Imagen 3 המוביל שלהם.

זה מעניק למפתחים את הכלים לבנות אפליקציות שעושות יותר מאשר רק לדבר. ניתן לבנות כלים שרואים, יוצרים וחושבים על פני סוגים שונים של נתונים.

המרוץ הוא כבר לא רק על מי מחזיק במודל הגדול ביותר. הוא על מי מחזיק בארכיטקטורה החכמה ביותר.

מקור: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi