ರಿಯಲ್-ಟೈಮ್ AI ಸಹಾಯಕರನ್ನು ನಿರ್ಮಿಸುವುದು ಏಕೆ ಕಷ್ಟ

ರಿಯಲ್-ಟೈಮ್ AI ಅನ್ನು ನಿರ್ಮಿಸುವುದು ಕಷ್ಟಕರವಾಗಿದೆ. ಹೆಚ್ಚಿನ ವ್ಯವಸ್ಥೆಗಳು ಪ್ರತ್ಯೇಕ ಭಾಗಗಳ ಸರಪಳಿಯನ್ನು ಬಳಸುತ್ತವೆ. ಒಂದು ಭಾಗ ಧ್ವನಿಯನ್ನು ಪತ್ತೆಹಚ್ಚುತ್ತದೆ. ಇನ್ನೊಂದು ಮಾತನ್ನು ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ. ಮೂರನೆಯದು ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಸೃಷ್ಟಿಸುತ್ತದೆ. ನಾಲ್ಕನೆಯದು ಪಠ್ಯವನ್ನು ಮಾತಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ. ಐದನೆಯದು ಅವತಾರವನ್ನು (avatar) ಪ್ರದರ್ಶಿಸುತ್ತದೆ.

ಈ ಭಾಗಗಳ ನಡುವಿನ ಪ್ರತಿಯೊಂದು ಹಸ್ತಾಂತರವು ವಿಳಂಬವನ್ನು (delay) ಉಂಟುಮಾಡುತ್ತದೆ. ಪ್ರತಿಯೊಂದು ಗಡಿ ಅಥವಾ ಹಂತವು ಸಮಯದ ದೋಷಗಳನ್ನು (timing errors) ಸೃಷ್ಟಿಸುತ್ತದೆ. ಇದು ಸಂವಹನವು ರೋಬೋಟಿಕ್ ಆಗಿರುವಂತೆ ಭಾಸವಾಗುವಂತೆ ಮಾಡುತ್ತದೆ.

Wan-Streamer v0.1 ಈ ವಿಧಾನವನ್ನು ಬದಲಾಯಿಸುತ್ತದೆ. ಪ್ರತ್ಯೇಕ ಸೇವೆಗಳ ಬದಲಿಗೆ, ಇದು ಒಂದೇ ಸ್ಟ್ರೀಮಿಂಗ್ Transformer ಅನ್ನು ಬಳಸುತ್ತದೆ. ಇದು ಆಡಿಯೋ, ವಿಡಿಯೋ ಮತ್ತು ಪಠ್ಯವನ್ನು ಒಂದೇ ಲೂಪ್ (loop) ಎಂದು ಪರಿಗಣಿಸುತ್ತದೆ.

ಪ್ರಮಾಣಿತ ಸಹಾಯಕರು ಈ ರೀತಿ ಕೆಲಸ ಮಾಡುತ್ತಾರೆ: • ಬಳಕೆದಾರರು ಮಾತನಾಡುತ್ತಾರೆ. • ವ್ಯವಸ್ಥೆಯು ಮಾತನ್ನು ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ. • ಮಾಡೆಲ್ ಪಠ್ಯದ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಸೃಷ್ಟಿಸುತ್ತದೆ. • ವ್ಯವಸ್ಥೆಯು ಪಠ್ಯವನ್ನು ಮಾತಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ. • ಅವತಾರವು ಆಡಿಯೋಗೆ ಅನುಗುಣವಾಗಿ ತುಟಿಗಳ ಚಲನೆಯನ್ನು ಹೊಂದಿಸಲು (sync) ಪ್ರಯತ್ನಿಸುತ್ತದೆ.

ಈ ವಿಧಾನವು ಅಸ್ಥಿರವಾಗಿದೆ (fragile). ಒಂದು ಹಂತವು ನಿಧಾನವಾಗಿದ್ದರೆ, ಇಡೀ ವ್ಯವಸ್ಥೆಯು ಕಾಯಬೇಕಾಗುತ್ತದೆ. ಬಳಕೆದಾರರು ಮಧ್ಯಪ್ರವೇಶಿಸಿದರೆ, ವ್ಯವಸ್ಥೆಯು ಅದನ್ನು ಗಮನಿಸಲು ವಿಫಲವಾಗಬಹುದು.

Wan-Streamer ಭಾಷೆ, ಆಡಿಯೋ ಮತ್ತು ವಿಡಿಯೋವನ್ನು ಒಟ್ಟಿಗೆ ಮಾಡೆಲಿಂಗ್ ಮಾಡುವ ಮೂಲಕ ಇದನ್ನು ಪರಿಹರಿಸುತ್ತದೆ. ಇದು block-causal attention ಅನ್ನು ಬಳಸುತ್ತದೆ. ಇದು ಮಾಡೆಲ್ ತನ್ನ ಸ್ಥಿತಿಯನ್ನು (state) ನಿರಂತರವಾಗಿ ಅಪ್‌ಡೇಟ್ ಮಾಡಲು ಅನುಮತಿಸುತ್ತದೆ. ಇದು ಕಾರ್ಯನಿರ್ವಹಿಸುವ ಮೊದಲು ಒಂದು ಸಂಪೂರ್ಣ ಹಂತವು ಮುಗಿಯುವವರೆಗೆ ಕಾಯುವುದಿಲ್ಲ.

ಈ ವ್ಯವಸ್ಥೆಯು thinker-performer ವಿಭಜನೆಯನ್ನು ಬಳಸುತ್ತದೆ: • Thinker ದತ್ತಾಂಶ ಗ್ರಹಿಕೆ (perception) ಮತ್ತು ಸ್ಟೇಟ್ ಅಪ್‌ಡೇಟ್‌ಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. • Performer ಮುಂದಿನ ಜನರೇಷನ್ ಘಟಕವನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ.

ಈ ಓವರ್‌ಲ್ಯಾಪ್ (overlap) ಲೂಪ್‌ನ ಭಾಗಗಳು ಒಂದನ್ನೊಂದು ತಡೆಯದಂತೆ ಮಾಡುತ್ತದೆ. ಮಾಡೆಲ್ ಸುಮಾರು 200 ms ಮಾಡೆಲ್-ಸೈಡ್ ವಿಳಂಬವನ್ನು (latency) ಸಾಧಿಸುತ್ತದೆ. ಒಟ್ಟು ಸಂವಹನ ವಿಳಂಬವು ಸುಮಾರು 550 ms ಇರುತ್ತದೆ.

ಪ್ರತಿಕ್ರಿಯೆಯ ಸಮಯವು ಒಂದು ಸೆಕೆಂಡಿಗಿಂತ ಕಡಿಮೆ ಇದ್ದಾಗ, ಸಂಭಾಷಣೆಗಳು ನೇರವಾದವುಗಳಂತೆ (live) ಭಾಸವಾಗುತ್ತವೆ. ಇದು ಈ ಕೆಳಗಿನವುಗಳಿಗೆ ಮುಖ್ಯವಾಗಿದೆ: • ಗ್ರಾಹಕ ಸೇವಾ ಅವತಾರಗಳು (Customer support avatars). • ಟ್ಯೂಟರಿಂಗ್ ಏಜೆಂಟ್‌ಗಳು. • ಟೆಲಿಪ್ರೆಸೆನ್ಸ್ ಪರಿಕರಗಳು (Telepresence tools). • ಇಂಟರಾಕ್ಟಿವ್ ಡೆಮೋಗಳು.

Wan-Streamer ಇನ್ನೂ 0.1 ಆವೃತ್ತಿಯಲ್ಲಿದೆ. ವಿಡಿಯೋ ಗುಣಮಟ್ಟವು ಕಡಿಮೆಯಿದೆ. ಒಂದೇ ಮಾಡೆಲ್ ಸುರಕ್ಷತೆ ಅಥವಾ ವಿಶ್ವಾಸಾರ್ಹತೆಯನ್ನು ಪರಿಹರಿಸುವುದಿಲ್ಲ. ಆದಾಗ್ಯೂ, ಸಂವಹನ ಲೂಪ್‌ನ ವಿನ್ಯಾಸವು ಮುಖ್ಯ ಎಂಬುದು ಇದರಿಂದ ಸಾಬೀತಾಗುತ್ತದೆ.

ನೀವು ರಿಯಲ್-ಟೈಮ್ AI ಅನ್ನು ನಿರ್ಮಿಸುತ್ತಿದ್ದರೆ, ಈ ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳಿ: • ನೀವು ಪ್ರತ್ಯೇಕ ಮಾಡ್ಯೂಲ್‌ಗಳನ್ನು ಒಂದೇ ಬ್ಯಾಕ್‌ಬೋನ್ (backbone) ಆಗಿ ವಿಲೀನಗೊಳಿಸಬಲ್ಲಿರಾ? • ನಿಮ್ಮ ಪೈಪ್‌ಲೈನ್‌ನಲ್ಲಿ ವಿಳಂಬ ಎಲ್ಲಿ ಉಂಟಾಗುತ್ತಿದೆ? • ವಿಳಂಬವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಯಾವ ಭಾಗಗಳನ್ನು ಓವರ್‌ಲ್ಯಾಪ್ ಮಾಡಬಹುದು?

ರಿಯಲ್-ಟೈಮ್ AI ಯಲ್ಲಿ, ಮಾಹಿತಿ ಚಲಿಸುವ ರೀತಿಯೇ ಉತ್ಪನ್ನವಾಗಿದೆ.

ಮೂಲ: https://dev.to/prabhakar_chaudhary_7afe4/why-real-time-ai-assistants-are-hard-and-what-wan-streamer-v01-changes-3m70

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ: https://t.me/GyaanSetuAi