Hai bước Diffusion đạt tốc độ 31 FPS

Các mô hình Diffusion cho lip sync cuối cùng đã đạt được tốc độ thời gian thực.

Hầu hết mọi người tin rằng cần hàng chục bước để mô hình diffusion hoạt động. Nghiên cứu mới cho thấy bạn chỉ cần hai bước.

Phương pháp Lip Forcing thay đổi cách thức hoạt động của pipeline. Nó không chỉ làm cho mô hình lớn hơn, mà còn làm cho quy trình trở nên thông minh hơn.

Các hệ thống cũ yêu cầu hơn 50 bước. Điều này gây ra sự chậm trễ kéo dài. Bạn không thể sử dụng chúng cho các tương tác trực tiếp.

Mô hình student 1.3B mới đạt 31 FPS. Tốc độ này nhanh hơn 17,6 lần so với các mô hình trước đó có cùng kích thước.

Nó hoạt động như thế nào?

  • Nó sử dụng một lịch trình suy luận (inference schedule) hai bước.
  • Nó loại bỏ classifier-free guidance trong quá trình kiểm thử.
  • Nó sử dụng Sync-Window DMD để giữ cho âm thanh và video đồng bộ.

Tốc độ này đi kèm với một sự đánh đổi nhỏ về độ trung thực (fidelity). Tuy nhiên, khả năng đồng bộ hóa vẫn duy trì ở mức cao.

Các hạn chế là rất rõ ràng.

  • Nó hoạt động trên các đoạn video (chunks), không phải toàn bộ chuỗi cùng một lúc.
  • Nó yêu cầu một mô hình teacher lớn để huấn luyện.
  • Hiện tại nó chỉ hoạt động trên các khuôn mặt đang nói.

Nếu hai bước có thể hoạt động cho lip sync, các mô hình video khác cũng nên đi theo hướng này. Chúng ta có thể thay thế các mô hình nặng nề bằng các mô hình student nhẹ hơn. Điều này mở ra cánh cửa cho các bộ lọc livestream và hoạt ảnh trên thiết bị (on-device animation).

Chúng ta có thể sớm thấy các mô hình chỉ với một bước duy nhất. Điều này sẽ giúp việc tạo video trở nên tức thì.

Nguồn: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi