Dos pasos de difusión alcanzan los 31 FPS

Translated for your language. Leer el original.

AI-assisted draft.

GyaanSetu Editorialhace 4 días1min de lectura

𝗗𝗼𝘀 𝗽𝗮𝘀𝗼𝘀 𝗱𝗲 𝗱𝗶𝗳𝘂𝘀𝗶ó𝗻 𝗮𝗹𝗰𝗮𝗻𝘇𝗮𝗻 𝟯𝟭 𝗙𝗣𝗦

Los modelos de difusión para la sincronización labial finalmente alcanzan velocidades en tiempo real.

La mayoría de la gente cree que se necesitan docenas de pasos para que la difusión funcione. Una nueva investigación demuestra que solo se necesitan dos.

El método Lip Forcing cambia la forma en que funciona el pipeline. No solo hace que el modelo sea más grande, sino que hace que el proceso sea más inteligente.

Los sistemas antiguos requerían más de 50 pasos. Esto causaba largos retrasos. No se podían utilizar para la interacción en vivo.

El nuevo modelo estudiante de 1.3B alcanza los 31 FPS. Esto es 17.6 veces más rápido que los modelos anteriores del mismo tamaño.

¿Cómo funciona?

Utiliza un esquema de inferencia de dos pasos.
Elimina el classifier-free guidance durante las pruebas.
Utiliza un Sync-Window DMD para mantener el audio y el video alineados.

La velocidad conlleva un pequeño sacrificio en la fidelidad. Sin embargo, la sincronización sigue siendo alta.

Las limitaciones son claras.

Funciona con fragmentos de video, no con la secuencia completa a la vez.
Requiere un modelo maestro (teacher model) grande para el entrenamiento.
Actualmente solo funciona con rostros que hablan.

Si dos pasos funcionan para la sincronización labial, otros modelos de video deberían seguir este camino. Podemos reemplazar modelos pesados con estudiantes ligeros. Esto abre la puerta a filtros de transmisión en vivo y animación en el dispositivo.

Podríamos ver modelos de un solo paso pronto. Esto haría que la generación de video fuera instantánea.

Fuente: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

Comunidad de aprendizaje opcional: https://t.me/GyaanSetuAi

Dos pasos de difusión alcanzan los 31 FPS

Seguir leyendo

𝗗𝗶𝗿𝗲𝗰𝘁 𝗜𝗻𝘃𝗲𝗿𝘀𝗶𝗼𝗻: 𝗕𝗼𝗼𝘀𝘁𝗶𝗻𝗴 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗘𝗱𝗶𝘁𝗶𝗻𝗴

Objetivos basados en el discurso para un aprendizaje rápido de oraciones

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

La acumulación de gradientes locales acelera el entrenamiento 1.7x