𝗧𝘄𝗼 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗦𝘁𝗲𝗽𝘀 𝗥𝗲𝗮𝗰𝗵 𝟯𝟭 𝗙𝗣𝗦

Translated for your language. Read the original.

AI-assisted draft.

4 ngày trước1min read

Hai bước Diffusion đạt tốc độ 31 FPS

Các mô hình Diffusion cho lip sync cuối cùng đã đạt được tốc độ thời gian thực.

Hầu hết mọi người tin rằng cần hàng chục bước để mô hình diffusion hoạt động. Nghiên cứu mới cho thấy bạn chỉ cần hai bước.

Phương pháp Lip Forcing thay đổi cách thức hoạt động của pipeline. Nó không chỉ làm cho mô hình lớn hơn, mà còn làm cho quy trình trở nên thông minh hơn.

Các hệ thống cũ yêu cầu hơn 50 bước. Điều này gây ra sự chậm trễ kéo dài. Bạn không thể sử dụng chúng cho các tương tác trực tiếp.

Mô hình student 1.3B mới đạt 31 FPS. Tốc độ này nhanh hơn 17,6 lần so với các mô hình trước đó có cùng kích thước.

Nó hoạt động như thế nào?

Nó sử dụng một lịch trình suy luận (inference schedule) hai bước.
Nó loại bỏ classifier-free guidance trong quá trình kiểm thử.
Nó sử dụng Sync-Window DMD để giữ cho âm thanh và video đồng bộ.

Tốc độ này đi kèm với một sự đánh đổi nhỏ về độ trung thực (fidelity). Tuy nhiên, khả năng đồng bộ hóa vẫn duy trì ở mức cao.

Các hạn chế là rất rõ ràng.

Nó hoạt động trên các đoạn video (chunks), không phải toàn bộ chuỗi cùng một lúc.
Nó yêu cầu một mô hình teacher lớn để huấn luyện.
Hiện tại nó chỉ hoạt động trên các khuôn mặt đang nói.

Nếu hai bước có thể hoạt động cho lip sync, các mô hình video khác cũng nên đi theo hướng này. Chúng ta có thể thay thế các mô hình nặng nề bằng các mô hình student nhẹ hơn. Điều này mở ra cánh cửa cho các bộ lọc livestream và hoạt ảnh trên thiết bị (on-device animation).

Chúng ta có thể sớm thấy các mô hình chỉ với một bước duy nhất. Điều này sẽ giúp việc tạo video trở nên tức thì.

Nguồn: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

𝗧𝘄𝗼 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗦𝘁𝗲𝗽𝘀 𝗥𝗲𝗮𝗰𝗵 𝟯𝟭 𝗙𝗣𝗦

Continue reading

𝗗𝗶𝗿𝗲𝗰𝘁 𝗜𝗻𝘃𝗲𝗿𝘀𝗶𝗼𝗻: 𝗕𝗼𝗼𝘀𝘁𝗶𝗻𝗴 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗘𝗱𝗶𝘁𝗶𝗻𝗴

Các mục tiêu dựa trên diễn ngôn để học câu nhanh chóng

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

DiffusionGemma: 1.000 Token mỗi giây

Tích lũy Gradient cục bộ giúp tăng tốc độ huấn luyện lên 1,7 lần