रिअल-टाइम AI असिस्टंट्स तयार करणे कठीण का आहे

रिअल-टाइम AI तयार करणे कठीण आहे. बहुतेक प्रणाली वेगवेगळ्या भागांची साखळी वापरतात. एक भाग आवाज ओळखतो. दुसरा बोलण्याचे मजकुरात (speech to text) रूपांतर करतो. तिसरा प्रतिसाद तयार करतो. चौथा मजकुराचे आवाजात (text to speech) रूपांतर करतो. पाचवा अवतार रेंडर करतो.

या भागांमधील प्रत्येक हस्तांतरणामुळे (handoff) विलंब होतो. प्रत्येक सीमेमुळे (boundary) वेळेच्या त्रुटी निर्माण होतात. यामुळे संवाद रोबोटिक वाटतो.

Wan-Streamer v0.1 हा दृष्टिकोन बदलतो. वेगवेगळ्या सेवांऐवजी, ते एका स्ट्रीमिंग Transformer चा वापर करते. ते ऑडिओ, व्हिडिओ आणि मजकूर यांना एकाच लूप (loop) प्रमाणे हाताळते.

प्रमाणित असिस्टंट्स अशा प्रकारे काम करतात: • वापरकर्ता बोलतो. • प्रणाली बोलण्याचे मजकुरात रूपांतर करते. • मॉडेल मजकुराचा प्रतिसाद तयार करते. • प्रणाली मजकुराचे आवाजात रूपांतर करते. • अवतार ऑडिओनुसार ओठांच्या हालचाली (lip sync) करण्याचा प्रयत्न करतो.

ही पद्धत नाजूक आहे. जर एक पायरी संथ असेल, तर संपूर्ण प्रणाली थांबते. जर वापरकर्त्याने मध्येच अडथळा आणला, तर प्रणाली अनेकदा ते लक्षात घेण्यात अपयशी ठरते.

Wan-Streamer भाषा, ऑडिओ आणि व्हिडिओचे एकत्रित मॉडेलिंग करून ही समस्या सोडवते. ते block-causal attention वापरते. यामुळे मॉडेलला आपली स्थिती (state) सतत अपडेट करण्याची परवानगी मिळते. कृती करण्यापूर्वी ते पूर्ण टर्न संपण्याची वाट पाहत नाही.

प्रणाली 'thinker-performer' विभाग वापरते: • 'thinker' धारणा (perception) आणि स्टेट अपडेट्स हाताळतो. • 'performer' जनरेशनचा पुढचा युनिट हाताळतो.

या ओव्हरलॅपमुळे लूपचे भाग एकमेकांना रोखण्यापासून (blocking) वाचतात. मॉडेल साधारणपणे 200 ms मॉडेल-साइड लॅटन्सी (latency) प्राप्त करते. एकूण संवाद लॅटन्सी सुमारे 550 ms राहते.

जेव्हा प्रतिसाद वेळ एक सेकंदाच्या खाली राहतो, तेव्हा संवाद थेट (live) वाटतात. हे खालील गोष्टींसाठी महत्त्वाचे आहे: • कस्टमर सपोर्ट अवतार. • ट्युटरिंग एजंट्स. • टेलिप्रझेन्स टूल्स. • इंटरअॅक्टिव्ह डेमो.

Wan-Streamer अजूनही व्हर्जन 0.1 मध्ये आहे. व्हिडिओची गुणवत्ता कमी आहे. एकच मॉडेल सुरक्षा किंवा विश्वासार्हतेची समस्या सोडवू शकत नाही. तथापि, हे सिद्ध करते की संवाद लूपचा आकार महत्त्वाचा असतो.

जर तुम्ही रिअल-टाइम AI तयार करत असाल, तर हे प्रश्न विचारा: • तुम्ही स्वतंत्र मॉड्यूल्सना एका बॅकबोनमध्ये (backbone) विलीन करू शकता का? • तुमच्या पाइपलाइनमध्ये विलंब कुठे होतो? • विलंब कमी करण्यासाठी कोणते भाग ओव्हरलॅप होऊ शकतात?

रिअल-टाइम AI मध्ये, माहिती ज्या पद्धतीने प्रवाहित होते, तेच खरे उत्पादन आहे.

Source: https://dev.to/prabhakar_chaudhary_7afe4/why-real-time-ai-assistants-are-hard-and-what-wan-streamer-v01-changes-3m70

Optional learning community: https://t.me/GyaanSetuAi