రెండు డిఫ్యూజన్ స్టెప్స్ 31 FPSని చేరుకున్నాయి
లిప్ సింక్ (lip sync) కోసం డిఫ్యూజన్ మోడల్స్ చివరకు రియల్-టైమ్ వేగాలను చేరుకున్నాయి.
డిఫ్యూజన్ పనిచేయడానికి డజన్ల కొద్దీ స్టెప్స్ అవసరమని చాలా మంది నమ్ముతారు. కానీ కొత్త పరిశోధన ప్రకారం కేవలం రెండు స్టెప్స్ మాత్రమే సరిపోతాయి.
Lip Forcing పద్ధతి పైప్లైన్ పని చేసే విధానాన్ని మారుస్తుంది. ఇది కేవలం మోడల్ను పెద్దదిగా చేయడమే కాకుండా, ప్రక్రియను మరింత తెలివిగా మారుస్తుంది.
పాత సిస్టమ్స్కు 50 కంటే ఎక్కువ స్టెప్స్ అవసరమయ్యేవి. దీనివల్ల ఎక్కువ ఆలస్యం జరిగేది. కాబట్టి వాటిని లైవ్ ఇంటరాక్షన్ కోసం ఉపయోగించడం సాధ్యమయ్యేది కాదు.
కొత్త 1.3B స్టూడెంట్ మోడల్ 31 FPS వేగాన్ని అందుకుంది. ఇది అదే పరిమాణం ఉన్న మునుపటి మోడల్స్ కంటే 17.6 రెట్లు వేగవంతమైనది.
ఇది ఎలా పనిచేస్తుంది?
- ఇది టూ-స్టెప్ ఇన్ఫరెన్స్ షెడ్యూల్ను (two-step inference schedule) ఉపయోగిస్తుంది.
- టెస్టింగ్ సమయంలో ఇది క్లాసిఫైయర్-ఫ్రీ గైడెన్స్ను (classifier-free guidance) తొలగిస్తుంది.
- ఆడియో మరియు వీడియో సమన్వయంతో (aligned) ఉండటానికి ఇది Sync-Window DMDని ఉపయోగిస్తుంది.
ఈ వేగం వల్ల ఫీడాలిటీ (fidelity) లో స్వల్ప తగ్గుదల ఉండవచ్చు. అయినప్పటికీ, సింక్రొనైజేషన్ (synchronization) మాత్రం ఎక్కువగా ఉంటుంది.
దీని పరిమితులు స్పష్టంగా ఉన్నాయి.
- ఇది వీడియో యొక్క ముక్కల (chunks) మీద పనిచేస్తుంది, మొత్తం సీక్వెన్స్పై ఒకేసారి కాదు.
- ట్రైనింగ్ కోసం దీనికి ఒక పెద్ద టీచర్ మోడల్ అవసరం.
- ప్రస్తుతం ఇది మాట్లాడే ముఖాలపై (speaking faces) మాత్రమే పనిచేస్తుంది.
లిప్ సింక్ కోసం రెండు స్టెప్స్ పనిచేస్తే, ఇతర వీడియో మోడల్స్ కూడా ఇదే మార్గాన్ని అనుసరించాలి. మనం భారీ మోడల్స్ను తేలికపాటి స్టూడెంట్ మోడల్స్తో భర్తీ చేయవచ్చు. ఇది లైవ్ స్ట్రీమింగ్ ఫిల్టర్లు మరియు ఆన్-డివైస్ యానిమేషన్లకు దారి తీస్తుంది.
త్వరలోనే కేవలం ఒకే ఒక స్టెప్తో పనిచేసే మోడల్స్ను మనం చూడవచ్చు. ఇది వీడియో జనరేషన్ను తక్షణమే చేసేలా చేస్తుంది.
Source: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd
Optional learning community: https://t.me/GyaanSetuAi