બે ડિફ્યુઝન સ્ટેપ્સ 31 FPS સુધી પહોંચ્યા

લિપ સિંક (lip sync) માટેના ડિફ્યુઝન મોડલ્સ આખરે રિયલ-ટાઇમ સ્પીડ સુધી પહોંચ્યા છે.

મોટાભાગના લોકો માને છે કે ડિફ્યુઝનને કાર્યરત કરવા માટે ડઝનબંધ સ્ટેપ્સની જરૂર પડે છે. નવું સંશોધન દર્શાવે છે કે તમારે માત્ર બે જ સ્ટેપ્સની જરૂર છે.

Lip Forcing પદ્ધતિ પાઇપલાઇન કેવી રીતે કામ કરે છે તે બદલી નાખે છે. તે માત્ર મોડલને મોટું નથી બનાવતું, પરંતુ પ્રક્રિયાને વધુ સ્માર્ટ બનાવે છે.

જૂની સિસ્ટમ્સમાં 50 થી વધુ સ્ટેપ્સની જરૂર પડતી હતી. આના કારણે લાંબો વિલંબ થતો હતો. તમે તેનો ઉપયોગ લાઈવ ઇન્ટરેક્શન માટે કરી શકતા નહોતા.

નવું 1.3B સ્ટુડન્ટ મોડલ 31 FPS સુધી પહોંચે છે. આ સમાન કદના અગાઉના મોડલ્સ કરતા 17.6 ગણું ઝડપી છે.

તે કેવી રીતે કામ કરે છે?

  • તે ટુ-સ્ટેપ ઇન્ફરન્સ શેડ્યૂલનો ઉપયોગ કરે છે.
  • તે ટેસ્ટિંગ દરમિયાન classifier-free guidance દૂર કરે છે.
  • તે ઓડિયો અને વિડિયોને સિંક રાખવા માટે Sync-Window DMD નો ઉપયોગ કરે છે.

આ ઝડપ સાથે ફિડેલિટી (fidelity) માં થોડો ઘટાડો થાય છે. જોકે, સિંક્રનાઇઝેશન ઊંચું રહે છે.

મર્યાદાઓ સ્પષ્ટ છે.

  • તે વિડિયોના ટુકડાઓ (chunks) પર કામ કરે છે, એકસાથે આખી સીક્વન્સ પર નહીં.
  • તાલીમ માટે તેને એક મોટા ટીચર મોડલની જરૂર પડે છે.
  • હાલમાં તે ફક્ત બોલતા ચહેરાઓ પર જ કામ કરે છે.

જો લિપ સિંક માટે બે સ્ટેપ્સ કામ કરે છે, તો અન્ય વિડિયો મોડલ્સએ પણ આ માર્ગ અપનાવવો જોઈએ. આપણે ભારે મોડલ્સને હળવા (lightweight) સ્ટુડન્ટ મોડલ્સ સાથે બદલી શકીએ છીએ. આ લાઈવ સ્ટ્રીમિંગ ફિલ્ટર્સ અને ઓન-ડિવાઇસ એનિમેશન માટેના દ્વાર ખોલે છે.

આપણે ટૂંક સમયમાં માત્ર એક જ સ્ટેપ ધરાવતા મોડલ્સ જોઈ શકીએ છીએ. આનાથી વિડિયો જનરેશન ત્વરિત બની જશે.

સ્ત્રોત: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi