Dua Langkah Difusi Mencapai 31 FPS

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial4 hari yang lalu1min read

Dua Langkah Difusi Mencapai 31 FPS

Model difusi untuk lip sync akhirnya mencapai kecepatan real-time.

Kebanyakan orang percaya bahwa Anda memerlukan puluhan langkah agar difusi dapat bekerja. Penelitian baru menunjukkan bahwa Anda hanya memerlukan dua langkah.

Metode Lip Forcing mengubah cara kerja pipeline. Metode ini tidak hanya membuat model menjadi lebih besar, tetapi juga membuat prosesnya menjadi lebih cerdas.

Sistem lama memerlukan lebih dari 50 langkah. Hal ini menyebabkan penundaan yang lama. Anda tidak dapat menggunakannya untuk interaksi langsung.

Model student 1.3B yang baru mencapai 31 FPS. Ini 17,6x lebih cepat daripada model sebelumnya dengan ukuran yang sama.

Bagaimana cara kerjanya?

Menggunakan jadwal inferensi dua langkah.
Menghapus classifier-free guidance selama pengujian.
Menggunakan Sync-Window DMD untuk menjaga audio dan video tetap selaras.

Kecepatan ini datang dengan sedikit kompromi pada fidelitas. Namun, sinkronisasinya tetap tinggi.

Batasannya jelas.

Bekerja pada potongan (chunks) video, bukan pada seluruh urutan sekaligus.
Memerlukan model teacher yang besar untuk pelatihan.
Saat ini hanya berfungsi pada wajah yang sedang berbicara.

Jika dua langkah berhasil untuk lip sync, model video lainnya harus mengikuti jalur ini. Kita dapat mengganti model yang berat dengan model student yang ringan. Ini membuka pintu bagi filter live streaming dan animasi pada perangkat (on-device).

Kita mungkin akan segera melihat model dengan hanya satu langkah. Ini akan membuat pembuatan video menjadi instan.

Sumber: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

Komunitas belajar opsional: https://t.me/GyaanSetuAi

Dua Langkah Difusi Mencapai 31 FPS

Continue reading

Inversi Langsung: Meningkatkan Pengeditan Difusi

𝗗𝗶𝘀𝗰𝗼𝘂𝗿𝘀𝗲 𝗕𝗮𝘀𝗲𝗱 𝗢𝗯𝗷𝗲𝗰𝘁𝗶𝘃𝗲𝘀 𝗳𝗼𝗿 𝗙𝗮𝘀𝘁 𝗦𝗲𝗻𝘁𝗲𝗻𝗰𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

𝗟𝗼𝗰𝗮𝗹 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 𝗔𝗰𝗰𝘂𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻 𝗦𝗽𝗲𝗲𝗱𝘀 𝗨𝗽 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝟭.𝟳𝘅