𝗧𝘄𝗼 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗦𝘁𝗲𝗽𝘀 𝗥𝗲𝗮𝗰𝗵 𝟯𝟭 𝗙𝗣𝗦

Translated for your language. Read the original.

AI-assisted draft.

4 రోజుల క్రితం1min read

రెండు డిఫ్యూజన్ స్టెప్స్ 31 FPSని చేరుకున్నాయి

లిప్ సింక్ (lip sync) కోసం డిఫ్యూజన్ మోడల్స్ చివరకు రియల్-టైమ్ వేగాలను చేరుకున్నాయి.

డిఫ్యూజన్ పనిచేయడానికి డజన్ల కొద్దీ స్టెప్స్ అవసరమని చాలా మంది నమ్ముతారు. కానీ కొత్త పరిశోధన ప్రకారం కేవలం రెండు స్టెప్స్ మాత్రమే సరిపోతాయి.

Lip Forcing పద్ధతి పైప్‌లైన్ పని చేసే విధానాన్ని మారుస్తుంది. ఇది కేవలం మోడల్‌ను పెద్దదిగా చేయడమే కాకుండా, ప్రక్రియను మరింత తెలివిగా మారుస్తుంది.

పాత సిస్టమ్స్‌కు 50 కంటే ఎక్కువ స్టెప్స్ అవసరమయ్యేవి. దీనివల్ల ఎక్కువ ఆలస్యం జరిగేది. కాబట్టి వాటిని లైవ్ ఇంటరాక్షన్ కోసం ఉపయోగించడం సాధ్యమయ్యేది కాదు.

కొత్త 1.3B స్టూడెంట్ మోడల్ 31 FPS వేగాన్ని అందుకుంది. ఇది అదే పరిమాణం ఉన్న మునుపటి మోడల్స్ కంటే 17.6 రెట్లు వేగవంతమైనది.

ఇది ఎలా పనిచేస్తుంది?

ఇది టూ-స్టెప్ ఇన్ఫరెన్స్ షెడ్యూల్‌ను (two-step inference schedule) ఉపయోగిస్తుంది.
టెస్టింగ్ సమయంలో ఇది క్లాసిఫైయర్-ఫ్రీ గైడెన్స్‌ను (classifier-free guidance) తొలగిస్తుంది.
ఆడియో మరియు వీడియో సమన్వయంతో (aligned) ఉండటానికి ఇది Sync-Window DMDని ఉపయోగిస్తుంది.

ఈ వేగం వల్ల ఫీడాలిటీ (fidelity) లో స్వల్ప తగ్గుదల ఉండవచ్చు. అయినప్పటికీ, సింక్రొనైజేషన్ (synchronization) మాత్రం ఎక్కువగా ఉంటుంది.

దీని పరిమితులు స్పష్టంగా ఉన్నాయి.

ఇది వీడియో యొక్క ముక్కల (chunks) మీద పనిచేస్తుంది, మొత్తం సీక్వెన్స్‌పై ఒకేసారి కాదు.
ట్రైనింగ్ కోసం దీనికి ఒక పెద్ద టీచర్ మోడల్ అవసరం.
ప్రస్తుతం ఇది మాట్లాడే ముఖాలపై (speaking faces) మాత్రమే పనిచేస్తుంది.

లిప్ సింక్ కోసం రెండు స్టెప్స్ పనిచేస్తే, ఇతర వీడియో మోడల్స్ కూడా ఇదే మార్గాన్ని అనుసరించాలి. మనం భారీ మోడల్స్‌ను తేలికపాటి స్టూడెంట్ మోడల్స్‌తో భర్తీ చేయవచ్చు. ఇది లైవ్ స్ట్రీమింగ్ ఫిల్టర్లు మరియు ఆన్-డివైస్ యానిమేషన్లకు దారి తీస్తుంది.

త్వరలోనే కేవలం ఒకే ఒక స్టెప్‌తో పనిచేసే మోడల్స్‌ను మనం చూడవచ్చు. ఇది వీడియో జనరేషన్‌ను తక్షణమే చేసేలా చేస్తుంది.

Source: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

Optional learning community: https://t.me/GyaanSetuAi

𝗧𝘄𝗼 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗦𝘁𝗲𝗽𝘀 𝗥𝗲𝗮𝗰𝗵 𝟯𝟭 𝗙𝗣𝗦

Continue reading

𝗗𝗶𝗿𝗲𝗰𝘁 𝗜𝗻𝘃𝗲𝗿𝘀𝗶𝗼𝗻: 𝗕𝗼𝗼𝘀𝘁𝗶𝗻𝗴 𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻 𝗘𝗱𝗶𝘁𝗶𝗻𝗴

వేగవంతమైన వాక్యాల అభ్యాసం కోసం డిస్కార్స్ ఆధారిత లక్ష్యాలు

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

𝗟𝗼𝗰𝗮𝗹 𝗚𝗿𝗮𝗱𝗶𝗲𝗻𝘁 𝗔𝗰𝗰𝘂𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻 𝗦𝗽𝗲𝗲𝗱𝘀 𝗨𝗽 𝗧𝗿𝗮𝗶𝗻𝗶𝗻𝗴 𝟭.𝟳𝘅