𝗧𝘄𝗼 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗦𝘁𝗲𝗽𝘀 𝗥𝗲𝗮𝗰𝗵 𝟯𝟭 𝗙𝗣𝗦

Translated for your language. Leggi l'originale.

AI-assisted draft.

4 giorni fa1min di lettura

Due step di diffusione raggiungono i 31 FPS

I modelli di diffusione per il lip sync raggiungono finalmente velocità in tempo reale.

La maggior parte delle persone crede che siano necessari decine di step per far funzionare la diffusione. Nuove ricerche dimostrano che ne bastano solo due.

Il metodo Lip Forcing cambia il modo in cui funziona la pipeline. Non si limita a rendere il modello più grande. Rende il processo più intelligente.

I vecchi sistemi richiedevano oltre 50 step. Ciò causava lunghi ritardi. Non era possibile utilizzarli per l'interazione dal vivo.

Il nuovo modello student da 1,3B raggiunge i 31 FPS. È 17,6 volte più veloce dei modelli precedenti della stessa dimensione.

Come funziona?

Utilizza uno schema di inferenza a due step.
Rimuove la classifier-free guidance durante il testing.
Utilizza un Sync-Window DMD per mantenere allineati audio e video.

La velocità comporta un piccolo compromesso in termini di fedeltà. Tuttavia, la sincronizzazione rimane elevata.

Le limitazioni sono chiare.

Funziona su segmenti di video, non sull'intera sequenza in una volta sola.
Richiede un modello teacher di grandi dimensioni per l'addestramento.
Al momento funziona solo su volti che parlano.

Se due step funzionano per il lip sync, anche altri modelli video dovrebbero seguire questa strada. Possiamo sostituire i modelli pesanti con student leggeri. Questo apre la strada a filtri per lo streaming dal vivo e all'animazione on-device.

Potremmo vedere presto modelli con un solo step. Ciò renderebbe la generazione video istantanea.

Fonte: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

Community di apprendimento opzionale: https://t.me/GyaanSetuAi

𝗧𝘄𝗼 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗦𝘁𝗲𝗽𝘀 𝗥𝗲𝗮𝗰𝗵 𝟯𝟭 𝗙𝗣𝗦

Continua a leggere

𝗗𝗶𝗿𝗲𝗰𝘁 𝗜𝗻𝘃𝗲𝗿𝘀𝗶𝗼𝗻: 𝗕𝗼𝗼𝘀𝘁𝗶𝗻𝗴 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗘𝗱𝗶𝘁𝗶𝗻𝗴

Obiettivi basati sul discorso per un apprendimento rapido delle frasi

DiffusionGemma 26B: Generazione di testo in parallelo

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

𝗟𝗼𝗰𝗮𝗹 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 𝗔𝗰𝗰𝘂𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻 𝗦𝗽𝗲𝗲𝗱𝘀 𝗨𝗽 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝟭.𝟳𝘅