𝗗𝗼𝘀 𝗽𝗮𝘀𝗼𝘀 𝗱𝗲 𝗱𝗶𝗳𝘂𝘀𝗶ó𝗻 𝗮𝗹𝗰𝗮𝗻𝘇𝗮𝗻 𝟯𝟭 𝗙𝗣𝗦

Los modelos de difusión para la sincronización labial finalmente alcanzan velocidades en tiempo real.

La mayoría de la gente cree que se necesitan docenas de pasos para que la difusión funcione. Una nueva investigación demuestra que solo se necesitan dos.

El método Lip Forcing cambia la forma en que funciona el pipeline. No solo hace que el modelo sea más grande, sino que hace que el proceso sea más inteligente.

Los sistemas antiguos requerían más de 50 pasos. Esto causaba largos retrasos. No se podían utilizar para la interacción en vivo.

El nuevo modelo estudiante de 1.3B alcanza los 31 FPS. Esto es 17.6 veces más rápido que los modelos anteriores del mismo tamaño.

¿Cómo funciona?

  • Utiliza un esquema de inferencia de dos pasos.
  • Elimina el classifier-free guidance durante las pruebas.
  • Utiliza un Sync-Window DMD para mantener el audio y el video alineados.

La velocidad conlleva un pequeño sacrificio en la fidelidad. Sin embargo, la sincronización sigue siendo alta.

Las limitaciones son claras.

  • Funciona con fragmentos de video, no con la secuencia completa a la vez.
  • Requiere un modelo maestro (teacher model) grande para el entrenamiento.
  • Actualmente solo funciona con rostros que hablan.

Si dos pasos funcionan para la sincronización labial, otros modelos de video deberían seguir este camino. Podemos reemplazar modelos pesados con estudiantes ligeros. Esto abre la puerta a filtros de transmisión en vivo y animación en el dispositivo.

Podríamos ver modelos de un solo paso pronto. Esto haría que la generación de video fuera instantánea.

Fuente: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi