שני שלבי דיפוזיה מגיעים ל-31 FPS
מודלי דיפוזיה לסנכרון שפתיים מגיעים סוף סוף למהירויות של זמן אמת.
רוב האנשים מאמינים שצריך עשרות שלבים כדי לגרום לדיפוזיה לעבוד. מחקר חדש מראה שצריך רק שניים.
שיטת ה-Lip Forcing משנה את אופן הפעולה של ה-pipeline. היא לא רק הופכת את המודל לגדול יותר, היא הופכת את התהליך לחכם יותר.
מערכות ישנות דרשו מעל 50 שלבים. זה גרם לעיכובים ארוכים, ולא ניתן היה להשתמש בהן לאינטראקציה חיה.
מודל ה-student החדש בנפח 1.3B מגיע ל-31 FPS. זה מהיר פי 17.6 ממודלים קודמים באותו גודל.
איך זה עובד?
- הוא משתמש בלוח זמנים של inference בשני שלבים.
- הוא מסיר classifier-free guidance במהלך הבדיקה.
- הוא משתמש ב-Sync-Window DMD כדי לשמור על סנכרון בין האודיו לווידאו.
המהירות מגיעה עם פשרה קטנה בנאמנות (fidelity). עם זאת, רמת הסנכרון נשארת גבוהה.
המגבלות ברורות.
- הוא עובד על מקטעי וידאו (chunks), ולא על הרצף כולו בבת אחת.
- הוא דורש מודל teacher גדול לצורך אימון.
- כרגע הוא עובד רק על פנים מדברות.
אם שני שלבים עובדים עבור סנכרון שפתיים, מודלים אחרים של וידאו צריכים לעקוב אחר הנתיב הזה. אנחנו יכולים להחליף מודלים כבדים ב-students קלים. זה פותח דלת לפילטרים של סטרימינג חי ולאנימציה על המכשיר (on-device).
ייתכן שנראה בקרוב מודלים עם שלב אחד בלבד. זה יהפוך את יצירת הווידאו למיידית.
מקור: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi