Dua Langkah Difusi Mencapai 31 FPS

Model difusi untuk lip sync akhirnya mencapai kecepatan real-time.

Kebanyakan orang percaya bahwa Anda memerlukan puluhan langkah agar difusi dapat bekerja. Penelitian baru menunjukkan bahwa Anda hanya memerlukan dua langkah.

Metode Lip Forcing mengubah cara kerja pipeline. Metode ini tidak hanya membuat model menjadi lebih besar, tetapi juga membuat prosesnya menjadi lebih cerdas.

Sistem lama memerlukan lebih dari 50 langkah. Hal ini menyebabkan penundaan yang lama. Anda tidak dapat menggunakannya untuk interaksi langsung.

Model student 1.3B yang baru mencapai 31 FPS. Ini 17,6x lebih cepat daripada model sebelumnya dengan ukuran yang sama.

Bagaimana cara kerjanya?

  • Menggunakan jadwal inferensi dua langkah.
  • Menghapus classifier-free guidance selama pengujian.
  • Menggunakan Sync-Window DMD untuk menjaga audio dan video tetap selaras.

Kecepatan ini datang dengan sedikit kompromi pada fidelitas. Namun, sinkronisasinya tetap tinggi.

Batasannya jelas.

  • Bekerja pada potongan (chunks) video, bukan pada seluruh urutan sekaligus.
  • Memerlukan model teacher yang besar untuk pelatihan.
  • Saat ini hanya berfungsi pada wajah yang sedang berbicara.

Jika dua langkah berhasil untuk lip sync, model video lainnya harus mengikuti jalur ini. Kita dapat mengganti model yang berat dengan model student yang ringan. Ini membuka pintu bagi filter live streaming dan animasi pada perangkat (on-device).

Kita mungkin akan segera melihat model dengan hanya satu langkah. Ini akan membuat pembuatan video menjadi instan.

Sumber: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

Komunitas belajar opsional: https://t.me/GyaanSetuAi