𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

📅2 hours ago⏱2 min read

DiffusionGemma: התפנית של Google ב-AI בקוד פתוח

AI חי בשני עולמות נפרדים במשך שנים.

צד אחד מטפל במילים באמצעות מודלי שפה גדולים (Large Language Models). הצד השני מטפל בתמונות באמצעות מודלי דיפוזיה (diffusion models). משתמשים באחד כדי לכתוב ובשני כדי לצייר. הם כמעט ולא מתקשרים זה עם זה.

Google משנה זאת באמצעות DiffusionGemma.

רוב המערכות הרב-מודאליות (multimodal) הן מגושמות. הן משתמשות בקידוד (encoder) כדי להסתכל על תמונה, הופכות אותה לדו"ח טקסטואלי, ואז מעבירות את הדו"ח הזה למודל שפה. תהליך התרגום הזה מאבד ניואנסים.

DiffusionGemma מדלג על המתווך.

הוא מתייחס לפיקסלים ולמילים כאותה שפה. הוא לא מתרגם תמונה לסיכום, אלא משלב את נתוני התמונה ישירות בעיבוד שלו. הוא רואה וחושב בו-זמנית.

לשינוי הזה יש חשיבות משלושה סיבות:

חשיבה מובנית (Native Reasoning): ניתן להראות לו תרשים מורכב ולבקש את ההשפעה העסקית. הוא מבין את הנתונים, לא רק את התוויות.
מודעות מרחבית (Spatial Awareness): הראו לו דיאגרמה של מכונה ובקשו את שלבי ההרכבה. הוא מבין כיצד החלקים מתאימים זה לזה.
יצירה הוליסטית: במקום לחזות מילה אחת בכל פעם כמו בנאי המניח לבנים, הוא עובד כמו פסל. הוא מתחיל עם רעש דיגיטלי ומזקק את הרעיון כולו בבת אחת.

הגישה הזו מסיטה אותנו מחיזוי מילים פשוט לעבר יצירה אמיתית.

Google הופכת את זה לקוד פתוח. הם שחררו מודל של 2 מיליארד פרמטרים וגרסה של 7 מיליארד פרמטרים. אלו משתמשים באותה ארכיטקטורה כמו מודל ה-Imagen 3 המוביל שלהם.

זה מעניק למפתחים את הכלים לבנות אפליקציות שעושות יותר מאשר רק לדבר. ניתן לבנות כלים שרואים, יוצרים וחושבים על פני סוגים שונים של נתונים.

המרוץ הוא כבר לא רק על מי מחזיק במודל הגדול ביותר. הוא על מי מחזיק בארכיטקטורה החכמה ביותר.

מקור: https://dev.to/gp-ia-blog/diffusiongemma-googles-open-ai-twist-597m

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝗚𝗼𝗼𝗴𝗹𝗲'𝘀 𝗢𝗽𝗲𝗻 𝗔𝗜 𝗧𝘄𝗶𝘀𝘁

Continue reading

𝗨𝗻𝗶𝗳𝗶𝗲𝗱 𝗥𝗲𝘄𝗮𝗿𝗱 𝗠𝗼𝗱𝗲𝗹𝘀 𝗳𝗼𝗿 𝗔𝗜

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗧𝗵𝗲 𝗥𝗶𝘀𝗲 𝗼𝗳 𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜: 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗶𝗻𝗴 𝗦𝗼𝗳𝘁𝘄𝗮𝗿𝗲 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗺𝗲𝗻𝘁

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

היפוך ישיר: שיפור עריכת דיפוזיה