𝗧𝘄𝗼 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗦𝘁𝗲𝗽𝘀 𝗥𝗲𝗮𝗰𝗵 𝟯𝟭 𝗙𝗣𝗦

Translated for your language. Read the original.

AI-assisted draft.

4 நாட்களுக்கு முன்1min read

இரண்டு Diffusion நிலைகள் 31 FPS வேகத்தை எட்டுகின்றன

Lip sync-க்கான Diffusion மாதிரிகள் இறுதியாக நிகழ்நேர (real-time) வேகத்தை எட்டியுள்ளன.

Diffusion சரியாகச் செயல்பட டஜன் கணக்கான நிலைகள் தேவை என்று பெரும்பாலான மக்கள் நம்புகிறார்கள். ஆனால் புதிய ஆராய்ச்சி இரண்டே நிலைகள் போதுமானது என்பதைக் காட்டுகிறது.

Lip Forcing முறை அந்தப் பணிப்பாய்வு (pipeline) செயல்படும் விதத்தையே மாற்றுகிறது. இது மாதிரியைப் பெரிதாக்குவது மட்டுமல்லாமல், செயல்முறையை மிகவும் புத்திசாலித்தனமானதாக மாற்றுகிறது.

பழைய அமைப்புகளுக்கு 50-க்கும் மேற்பட்ட நிலைகள் தேவைப்பட்டன. இது நீண்ட தாமதங்களை ஏற்படுத்தியது. எனவே அவற்றை நேரடித் தொடர்புகளுக்கு (live interaction) பயன்படுத்த முடியாது.

புதிய 1.3B student model 31 FPS வேகத்தை எட்டுகிறது. இது அதே அளவிலான முந்தைய மாதிரிகளை விட 17.6 மடங்கு வேகமானது.

இது எப்படிச் செயல்படுகிறது?

இது இரண்டு-படி inference schedule-ஐப் பயன்படுத்துகிறது.
சோதனையின் போது இது classifier-free guidance முறையை நீக்குகிறது.
ஆடியோ மற்றும் வீடியோவைச் சரியாகப் பொருத்த Sync-Window DMD-ஐப் பயன்படுத்துகிறது.

இந்த வேகம் துல்லியத்தில் (fidelity) சிறிய சமரசத்தைக் கோருகிறது. இருப்பினும், ஒத்திசைவு (synchronization) உயர்வாகவே உள்ளது.

இதன் வரம்புகள் தெளிவாக உள்ளன.

இது வீடியோவின் முழுத் தொடராகச் செயல்படாமல், வீடியோவின் சிறு துண்டுகளாகச் (chunks) செயல்படுகிறது.
பயிற்சி அளிக்க ஒரு பெரிய teacher model தேவைப்படுகிறது.
தற்போது இது பேசும் முகங்களுக்கு மட்டுமே வேலை செய்கிறது.

Lip sync-க்கு இரண்டு நிலைகளே போதுமானால், மற்ற வீடியோ மாதிரிகளும் இதே பாதையைப் பின்பற்ற வேண்டும். கனமான மாதிரிகளுக்குப் பதிலாக இலகுரக student மாதிரிகளைப் பயன்படுத்தலாம். இது நேரடி ஒளிபரப்பு ஃபில்டர்கள் (live streaming filters) மற்றும் சாதனத்திலேயே இயங்கும் அனிமேஷன் (on-device animation) ஆகியவற்றிற்கு வழிவகுக்கும்.

விரைவில் ஒரே ஒரு படிநிலை கொண்ட மாதிரிகளை நாம் காணக்கூடும். இது வீடியோ உருவாக்கத்தை உடனடித் தன்மையுடையதாக மாற்றும்.

Source: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

Optional learning community: https://t.me/GyaanSetuAi

𝗧𝘄𝗼 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗦𝘁𝗲𝗽𝘀 𝗥𝗲𝗮𝗰𝗵 𝟯𝟭 𝗙𝗣𝗦

Continue reading

நேரடி இன்வெர்ஷன்: டிஃப்யூஷன் எடிட்டிங்கை மேம்படுத்துதல்

𝗗𝗶𝘀𝗰𝗼𝘂𝗿𝘀𝗲 𝗕𝗮𝘀𝗲𝗱 𝗢𝗯𝗷𝗲𝗰𝘁𝗶𝘃𝗲𝘀 𝗳𝗼𝗿 𝗙𝗮𝘀𝘁 𝗦𝗲𝗻𝘁𝗲𝗻𝗰𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

DiffusionGemma: ஒரு வினாடிக்கு 1,000 டோக்கன்கள்

𝗟𝗼𝗰𝗮𝗹 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 𝗔𝗰𝗰𝘂𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻 𝗦𝗽𝗲𝗲𝗱𝘀 𝗨𝗽 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝟭.𝟳𝘅