ಎರಡು ಡಿಫ್ಯೂಷನ್ ಹಂತಗಳು 31 FPS ತಲುಪಿದೆವು

ಲಿಪ್ ಸಿಂಕ್‌ಗಾಗಿ ಬಳಸುವ ಡಿಫ್ಯೂಷನ್ ಮಾಡೆಲ್‌ಗಳು ಅಂತಿಮವಾಗಿ ರಿಯಲ್-ಟೈಮ್ ವೇಗವನ್ನು ತಲುಪಿವೆ.

ಡಿಫ್ಯೂಷನ್ ಕೆಲಸ ಮಾಡಲು ಡಜನ್‌ಗಟ್ಟಲೆ ಹಂತಗಳು ಬೇಕೆಂದು ಹೆಚ್ಚಿನ ಜನರು ನಂಬುತ್ತಾರೆ. ಆದರೆ ಹೊಸ ಸಂಶೋಧನೆಯು ಕೇವಲ ಎರಡು ಹಂತಗಳು ಸಾಕು ಎಂದು ತೋರಿಸುತ್ತದೆ.

Lip Forcing ವಿಧಾನವು ಪೈಪ್‌ಲೈನ್ ಕೆಲಸ ಮಾಡುವ ರೀತಿಯನ್ನೇ ಬದಲಾಯಿಸುತ್ತದೆ. ಇದು ಕೇವಲ ಮಾಡೆಲ್ ಅನ್ನು ದೊಡ್ಡದು ಮಾಡುವುದಿಲ್ಲ, ಬದಲಾಗಿ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಹೆಚ್ಚು ಸ್ಮಾರ್ಟ್ ಆಗಿಸುತ್ತದೆ.

ಹಳೆಯ ವ್ಯವಸ್ಥೆಗಳಿಗೆ 50 ಕ್ಕೂ ಹೆಚ್ಚು ಹಂತಗಳು ಬೇಕಾಗುತ್ತಿತ್ತು. ಇದರಿಂದಾಗಿ ವಿಳಂಬವಾಗುತ್ತಿತ್ತು. ನೀವು ಅವುಗಳನ್ನು ಲೈವ್ ಇಂಟರಾಕ್ಷನ್‌ಗಾಗಿ ಬಳಸಲು ಸಾಧ್ಯವಾಗುತ್ತಿರಲಿಲ್ಲ.

ಹೊಸ 1.3B ಸ್ಟೂಡೆಂಟ್ ಮಾಡೆಲ್ 31 FPS ತಲುಪಿದೆ. ಇದು ಅದೇ ಗಾತ್ರದ ಹಿಂದಿನ ಮಾಡೆಲ್‌ಗಳಿಗಿಂತ 17.6 ಪಟ್ಟು ವೇಗವಾಗಿದೆ.

ಇದು ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ?

  • ಇದು ಎರಡು ಹಂತದ ಇನ್ಫರೆನ್ಸ್ ಶೆಡ್ಯೂಲ್ ಅನ್ನು ಬಳಸುತ್ತದೆ.
  • ಇದು ಟೆಸ್ಟಿಂಗ್ ಸಮಯದಲ್ಲಿ classifier-free guidance ಅನ್ನು ತೆಗೆದುಹಾಕುತ್ತದೆ.
  • ಆಡಿಯೋ ಮತ್ತು ವಿಡಿಯೋಗಳನ್ನು ಹೊಂದಾಣಿಕೆಯಲ್ಲಿಡಲು ಇದು Sync-Window DMD ಅನ್ನು ಬಳಸುತ್ತದೆ.

ಈ ವೇಗವು ಫಿಡೆಲಿಟಿ (fidelity) ಯಲ್ಲಿ ಸಣ್ಣ ಮಟ್ಟದ ಕಡಿತವನ್ನು ತರುತ್ತದೆ. ಆದರೂ, ಸಿಂಕ್ರೊನೈಸೇಶನ್ (synchronization) ಮಟ್ಟವು ಹೆಚ್ಚಾಗಿರುತ್ತದೆ.

ಇದರ ಮಿತಿಗಳು ಸ್ಪಷ್ಟವಾಗಿವೆ.

  • ಇದು ವಿಡಿಯೋದ ತುಣುಕುಗಳ ಮೇಲೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ, ಇಡೀ ಸರಣಿಯ ಮೇಲೆ ಏಕಕಾಲದಲ್ಲಿ ಅಲ್ಲ.
  • ತರಬೇತಿಗಾಗಿ ಇದಕ್ಕೆ ದೊಡ್ಡ ಟೀಚರ್ ಮಾಡೆಲ್ ಅಗತ್ಯವಿದೆ.
  • ಇದು ಪ್ರಸ್ತುತ ಮಾತನಾಡುತ್ತಿರುವ ಮುಖಗಳ ಮೇಲೆ ಮಾತ್ರ ಕೆಲಸ ಮಾಡುತ್ತದೆ.

ಲಿಪ್ ಸಿಂಕ್‌ಗೆ ಎರಡು ಹಂತಗಳು ಕೆಲಸ ಮಾಡುವುದಾದರೆ, ಇತರ ವಿಡಿಯೋ ಮಾಡೆಲ್‌ಗಳು ಕೂಡ ಇದೇ ಹಾದಿಯನ್ನು ಅನುಸರಿಸಬೇಕು. ನಾವು ಭಾರೀ ಮಾಡೆಲ್‌ಗಳ ಬದಲಿಗೆ ಲಘು ತೂಕದ (lightweight) ಸ್ಟೂಡೆಂಟ್ ಮಾಡೆಲ್‌ಗಳನ್ನು ಬಳಸಬಹುದು. ಇದು ಲೈವ್ ಸ್ಟ್ರೀಮಿಂಗ್ ಫಿಲ್ಟರ್‌ಗಳು ಮತ್ತು ಆನ್-ಡೈವೈಸ್ ಅನಿಮೇಷನ್‌ಗಳಿಗೆ ದಾರಿ ಮಾಡಿಕೊಡುತ್ತದೆ.

ನಾವು ಶೀಘ್ರದಲ್ಲೇ ಕೇವಲ ಒಂದು ಹಂತವಿರುವ ಮಾಡೆಲ್‌ಗಳನ್ನು ನೋಡಬಹುದು. ಇದು ವಿಡಿಯೋ ಜನರೇಷನ್ ಅನ್ನು ತಕ್ಷಣವೇ ಮಾಡುವಂತೆ ಮಾಡುತ್ತದೆ.

ಮೂಲ: https://dev.to/olaughter/two-diffusion-steps-reach-31-fps-52pd

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi