خطوتان من نماذج الانتشار تحققان 31 إطاراً في الثانية

وصلت نماذج الانتشار (Diffusion models) لمزامنة الشفاه أخيراً إلى سرعات الوقت الفعلي.

يعتقد معظم الناس أنك بحاجة إلى عشرات الخطوات لجعل نماذج الانتشار تعمل. لكن الأبحاث الجديدة تظهر أنك تحتاج إلى خطوتين فقط.

تغير طريقة Lip Forcing كيفية عمل مسار المعالجة (pipeline). فهي لا تكتفي بجعل النموذج أكبر فحسب، بل تجعل العملية أكثر ذكاءً.

تطلبت الأنظمة القديمة أكثر من 50 خطوة، مما تسبب في تأخيرات طويلة، ولم يكن من الممكن استخدامها للتفاعل المباشر.

يحقق نموذج الطالب (student model) الجديد بحجم 1.3B نحو 31 إطاراً في الثانية (FPS). وهذا أسرع بـ 17.6 مرة من النماذج السابقة من نفس الحجم.

كيف تعمل هذه الطريقة؟

  • تستخدم جدول استدلال (inference schedule) مكوناً من خطوتين.
  • تقوم بإزالة التوجيه الخالي من المصنف (classifier-free guidance) أثناء الاختبار.
  • تستخدم Sync-Window DMD للحفاظ على محاذاة الصوت والفيديو.

تأتي هذه السرعة مع تضحية بسيطة في الدقة (fidelity). ومع ذلك، تظل المزامنة عالية.

القيود واضحة:

  • تعمل على أجزاء (chunks) من الفيديو، وليس على التسلسل بأكمله دفعة واحدة.
  • تتطلب نموذج معلم (teacher model) كبيراً للتدريب.
  • تعمل حالياً فقط على الوجوه المتحدثة.

إذا كانت الخطوتان تنجحان في مزامنة الشفاه، فيجب على نماذج الفيديو الأخرى اتباع هذا المسار. يمكننا استبدال النماذج الثقيلة بنماذج طلاب خفيفة الوزن، مما يفتح الباب أمام فلاتر البث المباشر والرسوم المتحركة على الأجهزة.

قد نرى قريباً نماذج بخطوة واحدة فقط، مما سيجعل إنشاء الفيديو فورياً.

المصدر: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi