שני שלבי דיפוזיה מגיעים ל-31 FPS

Translated for your language. Read the original.

AI-assisted draft.

לפני 4 ימים1min read

שני שלבי דיפוזיה מגיעים ל-31 FPS

מודלי דיפוזיה לסנכרון שפתיים מגיעים סוף סוף למהירויות של זמן אמת.

רוב האנשים מאמינים שצריך עשרות שלבים כדי לגרום לדיפוזיה לעבוד. מחקר חדש מראה שצריך רק שניים.

שיטת ה-Lip Forcing משנה את אופן הפעולה של ה-pipeline. היא לא רק הופכת את המודל לגדול יותר, היא הופכת את התהליך לחכם יותר.

מערכות ישנות דרשו מעל 50 שלבים. זה גרם לעיכובים ארוכים, ולא ניתן היה להשתמש בהן לאינטראקציה חיה.

מודל ה-student החדש בנפח 1.3B מגיע ל-31 FPS. זה מהיר פי 17.6 ממודלים קודמים באותו גודל.

איך זה עובד?

הוא משתמש בלוח זמנים של inference בשני שלבים.
הוא מסיר classifier-free guidance במהלך הבדיקה.
הוא משתמש ב-Sync-Window DMD כדי לשמור על סנכרון בין האודיו לווידאו.

המהירות מגיעה עם פשרה קטנה בנאמנות (fidelity). עם זאת, רמת הסנכרון נשארת גבוהה.

המגבלות ברורות.

הוא עובד על מקטעי וידאו (chunks), ולא על הרצף כולו בבת אחת.
הוא דורש מודל teacher גדול לצורך אימון.
כרגע הוא עובד רק על פנים מדברות.

אם שני שלבים עובדים עבור סנכרון שפתיים, מודלים אחרים של וידאו צריכים לעקוב אחר הנתיב הזה. אנחנו יכולים להחליף מודלים כבדים ב-students קלים. זה פותח דלת לפילטרים של סטרימינג חי ולאנימציה על המכשיר (on-device).

ייתכן שנראה בקרוב מודלים עם שלב אחד בלבד. זה יהפוך את יצירת הווידאו למיידית.

מקור: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi

שני שלבי דיפוזיה מגיעים ל-31 FPS

Continue reading

היפוך ישיר: שיפור עריכת דיפוזיה

מטרות מבוססות שיח ללמידה מהירה של משפטים

DiffusionGemma 26B: יצירת טקסט במקביל

DiffusionGemma: 1,000 טוקנים בשנייה

𝗟𝗼𝗰𝗮𝗹 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 𝗔𝗰𝗰𝘂𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻 𝗦𝗽𝗲𝗲𝗱𝘀 𝗨𝗽 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝟭.𝟳𝘅