两个扩散步骤即可达到 31 FPS
用于唇形同步的扩散模型终于达到了实时速度。
大多数人认为需要数十个步骤才能使扩散模型发挥作用。新研究表明,你只需要两个步骤。
Lip Forcing 方法改变了流水线的工作方式。它不仅仅是扩大模型规模,而是让过程变得更智能。
旧系统需要超过 50 个步骤。这导致了长时间的延迟,无法用于实时交互。
新的 1.3B 学生模型达到了 31 FPS。这比同等规模的以往模型快了 17.6 倍。
它是如何工作的?
- 它使用两步推理调度。
- 它在测试期间移除了无分类器指导 (classifier-free guidance)。
- 它使用 Sync-Window DMD 来保持音视频同步。
速度的提升是以牺牲少量保真度为代价的。然而,同步性仍然很高。
其局限性显而易见。
- 它处理的是视频片段,而不是一次性处理整个序列。
- 它需要一个大型教师模型进行训练。
- 目前它仅适用于说话的面部。
如果两个步骤可以用于唇形同步,其他视频模型也应该遵循这一路径。我们可以用轻量级的学生模型取代沉重的模型。这为直播滤镜和设备端动画开启了大门。
我们可能很快就会看到仅需一步的模型。这将使视频生成变得瞬时完成。
来源:https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd
可选学习社区:https://t.me/GyaanSetuAi