இரண்டு Diffusion நிலைகள் 31 FPS வேகத்தை எட்டுகின்றன

Lip sync-க்கான Diffusion மாதிரிகள் இறுதியாக நிகழ்நேர (real-time) வேகத்தை எட்டியுள்ளன.

Diffusion சரியாகச் செயல்பட டஜன் கணக்கான நிலைகள் தேவை என்று பெரும்பாலான மக்கள் நம்புகிறார்கள். ஆனால் புதிய ஆராய்ச்சி இரண்டே நிலைகள் போதுமானது என்பதைக் காட்டுகிறது.

Lip Forcing முறை அந்தப் பணிப்பாய்வு (pipeline) செயல்படும் விதத்தையே மாற்றுகிறது. இது மாதிரியைப் பெரிதாக்குவது மட்டுமல்லாமல், செயல்முறையை மிகவும் புத்திசாலித்தனமானதாக மாற்றுகிறது.

பழைய அமைப்புகளுக்கு 50-க்கும் மேற்பட்ட நிலைகள் தேவைப்பட்டன. இது நீண்ட தாமதங்களை ஏற்படுத்தியது. எனவே அவற்றை நேரடித் தொடர்புகளுக்கு (live interaction) பயன்படுத்த முடியாது.

புதிய 1.3B student model 31 FPS வேகத்தை எட்டுகிறது. இது அதே அளவிலான முந்தைய மாதிரிகளை விட 17.6 மடங்கு வேகமானது.

இது எப்படிச் செயல்படுகிறது?

  • இது இரண்டு-படி inference schedule-ஐப் பயன்படுத்துகிறது.
  • சோதனையின் போது இது classifier-free guidance முறையை நீக்குகிறது.
  • ஆடியோ மற்றும் வீடியோவைச் சரியாகப் பொருத்த Sync-Window DMD-ஐப் பயன்படுத்துகிறது.

இந்த வேகம் துல்லியத்தில் (fidelity) சிறிய சமரசத்தைக் கோருகிறது. இருப்பினும், ஒத்திசைவு (synchronization) உயர்வாகவே உள்ளது.

இதன் வரம்புகள் தெளிவாக உள்ளன.

  • இது வீடியோவின் முழுத் தொடராகச் செயல்படாமல், வீடியோவின் சிறு துண்டுகளாகச் (chunks) செயல்படுகிறது.
  • பயிற்சி அளிக்க ஒரு பெரிய teacher model தேவைப்படுகிறது.
  • தற்போது இது பேசும் முகங்களுக்கு மட்டுமே வேலை செய்கிறது.

Lip sync-க்கு இரண்டு நிலைகளே போதுமானால், மற்ற வீடியோ மாதிரிகளும் இதே பாதையைப் பின்பற்ற வேண்டும். கனமான மாதிரிகளுக்குப் பதிலாக இலகுரக student மாதிரிகளைப் பயன்படுத்தலாம். இது நேரடி ஒளிபரப்பு ஃபில்டர்கள் (live streaming filters) மற்றும் சாதனத்திலேயே இயங்கும் அனிமேஷன் (on-device animation) ஆகியவற்றிற்கு வழிவகுக்கும்.

விரைவில் ஒரே ஒரு படிநிலை கொண்ட மாதிரிகளை நாம் காணக்கூடும். இது வீடியோ உருவாக்கத்தை உடனடித் தன்மையுடையதாக மாற்றும்.

Source: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

Optional learning community: https://t.me/GyaanSetuAi