Due step di diffusione raggiungono i 31 FPS
I modelli di diffusione per il lip sync raggiungono finalmente velocità in tempo reale.
La maggior parte delle persone crede che siano necessari decine di step per far funzionare la diffusione. Nuove ricerche dimostrano che ne bastano solo due.
Il metodo Lip Forcing cambia il modo in cui funziona la pipeline. Non si limita a rendere il modello più grande. Rende il processo più intelligente.
I vecchi sistemi richiedevano oltre 50 step. Ciò causava lunghi ritardi. Non era possibile utilizzarli per l'interazione dal vivo.
Il nuovo modello student da 1,3B raggiunge i 31 FPS. È 17,6 volte più veloce dei modelli precedenti della stessa dimensione.
Come funziona?
- Utilizza uno schema di inferenza a due step.
- Rimuove la classifier-free guidance durante il testing.
- Utilizza un Sync-Window DMD per mantenere allineati audio e video.
La velocità comporta un piccolo compromesso in termini di fedeltà. Tuttavia, la sincronizzazione rimane elevata.
Le limitazioni sono chiare.
- Funziona su segmenti di video, non sull'intera sequenza in una volta sola.
- Richiede un modello teacher di grandi dimensioni per l'addestramento.
- Al momento funziona solo su volti che parlano.
Se due step funzionano per il lip sync, anche altri modelli video dovrebbero seguire questa strada. Possiamo sostituire i modelli pesanti con student leggeri. Questo apre la strada a filtri per lo streaming dal vivo e all'animazione on-device.
Potremmo vedere presto modelli con un solo step. Ciò renderebbe la generazione video istantanea.
Fonte: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd
Community di apprendimento opzionale: https://t.me/GyaanSetuAi