خطوتان من الانتشار تصلان إلى 31 إطاراً في الثانية

Translated for your language. اقرأ الأصل.

AI-assisted draft.

قبل 4 أيام1دقيقة قراءة

خطوتان من نماذج الانتشار تحققان 31 إطاراً في الثانية

وصلت نماذج الانتشار (Diffusion models) لمزامنة الشفاه أخيراً إلى سرعات الوقت الفعلي.

يعتقد معظم الناس أنك بحاجة إلى عشرات الخطوات لجعل نماذج الانتشار تعمل. لكن الأبحاث الجديدة تظهر أنك تحتاج إلى خطوتين فقط.

تغير طريقة Lip Forcing كيفية عمل مسار المعالجة (pipeline). فهي لا تكتفي بجعل النموذج أكبر فحسب، بل تجعل العملية أكثر ذكاءً.

تطلبت الأنظمة القديمة أكثر من 50 خطوة، مما تسبب في تأخيرات طويلة، ولم يكن من الممكن استخدامها للتفاعل المباشر.

يحقق نموذج الطالب (student model) الجديد بحجم 1.3B نحو 31 إطاراً في الثانية (FPS). وهذا أسرع بـ 17.6 مرة من النماذج السابقة من نفس الحجم.

كيف تعمل هذه الطريقة؟

تستخدم جدول استدلال (inference schedule) مكوناً من خطوتين.
تقوم بإزالة التوجيه الخالي من المصنف (classifier-free guidance) أثناء الاختبار.
تستخدم Sync-Window DMD للحفاظ على محاذاة الصوت والفيديو.

تأتي هذه السرعة مع تضحية بسيطة في الدقة (fidelity). ومع ذلك، تظل المزامنة عالية.

القيود واضحة:

تعمل على أجزاء (chunks) من الفيديو، وليس على التسلسل بأكمله دفعة واحدة.
تتطلب نموذج معلم (teacher model) كبيراً للتدريب.
تعمل حالياً فقط على الوجوه المتحدثة.

إذا كانت الخطوتان تنجحان في مزامنة الشفاه، فيجب على نماذج الفيديو الأخرى اتباع هذا المسار. يمكننا استبدال النماذج الثقيلة بنماذج طلاب خفيفة الوزن، مما يفتح الباب أمام فلاتر البث المباشر والرسوم المتحركة على الأجهزة.

قد نرى قريباً نماذج بخطوة واحدة فقط، مما سيجعل إنشاء الفيديو فورياً.

المصدر: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi

خطوتان من الانتشار تصلان إلى 31 إطاراً في الثانية

متابعة القراءة

العكس المباشر: تعزيز تحرير نماذج الانتشار

أهداف قائمة على الخطاب لتعلم الجمل السريع

DiffusionGemma 26B: توليد النصوص المتوازي

DiffusionGemma: 1,000 توكن في الثانية

تراكم التدرج المحلي يسرع التدريب بمقدار 1.7 مرة