दोन डिफ्यूजन स्टेप्समुळे ३१ FPS मिळतात

लिप सिंकसाठीचे डिफ्यूजन मॉडेल्स अखेर रिअल-टाइम वेगापर्यंत पोहोचले आहेत.

डिफ्यूजन कार्यक्षम करण्यासाठी डझनभर स्टेप्सची गरज असते असे बहुतेक लोकांचे मानणे आहे. नवीन संशोधनानुसार यासाठी केवळ दोन स्टेप्सची आवश्यकता आहे.

Lip Forcing पद्धत पाइपलाइनच्या कार्यपद्धतीत बदल करते. ती केवळ मॉडेल मोठे करत नाही, तर प्रक्रिया अधिक स्मार्ट बनवते.

जुन्या प्रणालींमध्ये ५० पेक्षा जास्त स्टेप्स आवश्यक होत्या. यामुळे मोठा विलंब होत असे. त्यामुळे त्यांचा लाइव्ह इंटरॅक्शनसाठी वापर करता येत नसे.

नवीन 1.3B student मॉडेल ३१ FPS गाठते. हे त्याच आकाराच्या मागील मॉडेल्सपेक्षा १७.६ पट वेगवान आहे.

हे कसे कार्य करते?

  • हे दोन-स्टेप इन्फरन्स शेड्युल वापरते.
  • हे टेस्टिंग दरम्यान classifier-free guidance काढून टाकते.
  • ऑडिओ आणि व्हिडिओ सुसंगत ठेवण्यासाठी हे Sync-Window DMD वापरते.

या वेगामुळे फिडेलिटीमध्ये (fidelity) थोडी तडजोड करावी लागते. तरीही, सिंक्रोनाइझेशन उच्च राहते.

मर्यादा स्पष्ट आहेत.

  • हे व्हिडिओच्या chunks वर काम करते, संपूर्ण सिक्वेन्सवर एकाच वेळी नाही.
  • प्रशिक्षणासाठी (training) यासाठी एका मोठ्या teacher मॉडेलची आवश्यकता असते.
  • सध्या हे केवळ बोलणाऱ्या चेहऱ्यांवर काम करते.

जर लिप सिंकसाठी दोन स्टेप्स suffice होत असतील, तर इतर व्हिडिओ मॉडेल्सनी देखील याच मार्गाचा अवलंब करायला हवा. आपण जड मॉडेल्सना हलक्या (lightweight) student मॉडेल्सनी बदलू शकतो. यामुळे लाइव्ह स्ट्रीमिंग फिल्टर्स आणि ऑन-डिव्हाइस ॲनिमेशनसाठी नवीन मार्ग खुले होतील.

आपल्याला लवकरच केवळ एका स्टेप असलेले मॉडेल्स पाहायला मिळू शकतात. यामुळे व्हिडिओ जनरेशन झटपट होईल.

स्त्रोत: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

ऐच्छिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi