दोन डिफ्यूजन स्टेप्समध्ये ३१ FPS गाठले

Translated for your language. Read the original.

AI-assisted draft.

४ दिवसांपूर्वी1min read

दोन डिफ्यूजन स्टेप्समुळे ३१ FPS मिळतात

लिप सिंकसाठीचे डिफ्यूजन मॉडेल्स अखेर रिअल-टाइम वेगापर्यंत पोहोचले आहेत.

डिफ्यूजन कार्यक्षम करण्यासाठी डझनभर स्टेप्सची गरज असते असे बहुतेक लोकांचे मानणे आहे. नवीन संशोधनानुसार यासाठी केवळ दोन स्टेप्सची आवश्यकता आहे.

Lip Forcing पद्धत पाइपलाइनच्या कार्यपद्धतीत बदल करते. ती केवळ मॉडेल मोठे करत नाही, तर प्रक्रिया अधिक स्मार्ट बनवते.

जुन्या प्रणालींमध्ये ५० पेक्षा जास्त स्टेप्स आवश्यक होत्या. यामुळे मोठा विलंब होत असे. त्यामुळे त्यांचा लाइव्ह इंटरॅक्शनसाठी वापर करता येत नसे.

नवीन 1.3B student मॉडेल ३१ FPS गाठते. हे त्याच आकाराच्या मागील मॉडेल्सपेक्षा १७.६ पट वेगवान आहे.

हे कसे कार्य करते?

हे दोन-स्टेप इन्फरन्स शेड्युल वापरते.
हे टेस्टिंग दरम्यान classifier-free guidance काढून टाकते.
ऑडिओ आणि व्हिडिओ सुसंगत ठेवण्यासाठी हे Sync-Window DMD वापरते.

या वेगामुळे फिडेलिटीमध्ये (fidelity) थोडी तडजोड करावी लागते. तरीही, सिंक्रोनाइझेशन उच्च राहते.

मर्यादा स्पष्ट आहेत.

हे व्हिडिओच्या chunks वर काम करते, संपूर्ण सिक्वेन्सवर एकाच वेळी नाही.
प्रशिक्षणासाठी (training) यासाठी एका मोठ्या teacher मॉडेलची आवश्यकता असते.
सध्या हे केवळ बोलणाऱ्या चेहऱ्यांवर काम करते.

जर लिप सिंकसाठी दोन स्टेप्स suffice होत असतील, तर इतर व्हिडिओ मॉडेल्सनी देखील याच मार्गाचा अवलंब करायला हवा. आपण जड मॉडेल्सना हलक्या (lightweight) student मॉडेल्सनी बदलू शकतो. यामुळे लाइव्ह स्ट्रीमिंग फिल्टर्स आणि ऑन-डिव्हाइस ॲनिमेशनसाठी नवीन मार्ग खुले होतील.

आपल्याला लवकरच केवळ एका स्टेप असलेले मॉडेल्स पाहायला मिळू शकतात. यामुळे व्हिडिओ जनरेशन झटपट होईल.

स्त्रोत: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

ऐच्छिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

दोन डिफ्यूजन स्टेप्समध्ये ३१ FPS गाठले

Continue reading

डायरेक्ट इन्व्हर्जन: डिफ्यूजन एडिटिंगला बूस्ट करणे

जलद वाक्य शिकण्यासाठी डिस्कोर्स-आधारित उद्दिष्टे

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

DiffusionGemma: प्रति सेकंद १,००० टोकन्स

𝗟𝗼𝗰𝗮𝗹 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 𝗔𝗰𝗰𝘂𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻 𝗦𝗽𝗲𝗲𝗱𝘀 𝗨𝗽 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝟭.𝟳𝘅