ਰੀਅਲ-ਟਾਈਮ AI ਸਹਾਇਕ ਕਿਉਂ ਚੁਣੌਤੀਪੂਰਨ ਹਨ

Translated for your language. Read the original.

AI-assisted draft.

ਰੀਅਲ-ਟਾਈਮ AI ਸਹਾਇਕ ਬਣਾਉਣਾ ਕਿਉਂ ਮੁਸ਼ਕਲ ਹੈ

ਰੀਅਲ-ਟਾਈਮ AI ਬਣਾਉਣਾ ਮੁਸ਼ਕਲ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਪ੍ਰਣਾਲੀਆਂ ਵੱਖ-ਵੱਖ ਹਿੱਸਿਆਂ ਦੀ ਇੱਕ ਲੜੀ ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ। ਇੱਕ ਹਿੱਸਾ ਆਵਾਜ਼ ਦੀ ਪਛਾਣ ਕਰਦਾ ਹੈ। ਦੂਜਾ ਬੋਲ ਨੂੰ ਟੈਕਸਟ ਵਿੱਚ ਬਦਲਦਾ ਹੈ। ਤੀਜਾ ਇੱਕ ਜਵਾਬ ਤਿਆਰ ਕਰਦਾ ਹੈ। ਚੌਥਾ ਟੈਕਸਟ ਨੂੰ ਆਵਾਜ਼ ਵਿੱਚ ਬਦਲਦਾ ਹੈ। ਪੰਜਵਾਂ ਇੱਕ ਅਵਤਾਰ (avatar) ਰੈਂਡਰ ਕਰਦਾ ਹੈ।

ਇਹਨਾਂ ਹਿੱਸਿਆਂ ਵਿਚਕਾਰ ਹਰ ਇੱਕ ਤਬਦੀਲੀ (handoff) ਦੇਰੀ ਪੈਦਾ ਕਰਦੀ ਹੈ। ਹਰ ਸੀਮਾ ਸਮੇਂ ਦੀਆਂ ਗਲਤੀਆਂ ਪੈਦਾ ਕਰਦੀ ਹੈ। ਇਸ ਨਾਲ ਗੱਲਬਾਤ ਰੋਬੋਟਿਕ ਮਹਿਸੂਸ ਹੁੰਦੀ ਹੈ।

Wan-Streamer v0.1 ਇਸ ਪਹੁੰਚ ਨੂੰ ਬਦਲ ਦਿੰਦਾ ਹੈ। ਵੱਖ-ਵੱਖ ਸੇਵਾਵਾਂ ਦੀ ਬਜਾਏ, ਇਹ ਇੱਕ ਸਿੰਗਲ streaming Transformer ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਆਡੀਓ, ਵੀਡੀਓ ਅਤੇ ਟੈਕਸਟ ਨੂੰ ਇੱਕ ਸਿੰਗਲ ਲੂਪ ਵਜੋਂ ਮੰਨਦਾ ਹੈ।

ਸਟੈਂਡਰਡ ਸਹਾਇਕ ਇਸ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰਦੇ ਹਨ: • ਯੂਜ਼ਰ ਬੋਲਦਾ ਹੈ। • ਸਿਸਟਮ ਬੋਲ ਨੂੰ ਟੈਕਸਟ ਵਿੱਚ ਬਦਲਦਾ ਹੈ। • ਮਾਡਲ ਇੱਕ ਟੈਕਸਟ ਜਵਾਬ ਤਿਆਰ ਕਰਦਾ ਹੈ। • ਸਿਸਟਮ ਟੈਕਸਟ ਨੂੰ ਆਵਾਜ਼ ਵਿੱਚ ਬਦਲਦਾ ਹੈ। • ਅਵਤਾਰ ਆਡੀਓ ਦੇ ਨਾਲ ਲਿਪ-ਸਿੰਕ (sync lips) ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ।

ਇਹ ਤਰੀਕਾ ਕਮਜ਼ੋਰ ਹੈ। ਜੇਕਰ ਇੱਕ ਕਦਮ ਸੁਸਤ ਹੈ, ਤਾਂ ਪੂਰੀ ਪ੍ਰਣਾਲੀ ਉਡੀਕਦੀ ਹੈ। ਜੇਕਰ ਯੂਜ਼ਰ ਵਿਚਾਲੇ ਬੋਲ ਪਵੇ, ਤਾਂ ਸਿਸਟਮ ਅਕਸਰ ਇਸ ਨੂੰ ਨੋਟ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ।

Wan-Streamer ਭਾਸ਼ਾ, ਆਡੀਓ ਅਤੇ ਵੀਡੀਓ ਨੂੰ ਇਕੱਠੇ ਮਾਡਲ ਕਰਕੇ ਇਸ ਨੂੰ ਹੱਲ ਕਰਦਾ ਹੈ। ਇਹ block-causal attention ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਮਾਡਲ ਨੂੰ ਆਪਣੀ ਸਥਿਤੀ (state) ਨੂੰ ਲਗਾਤਾਰ ਅਪਡੇਟ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਇਹ ਕੰਮ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਪੂਰੇ ਟਰਨ (turn) ਦੇ ਖਤਮ ਹੋਣ ਦੀ ਉਡੀਕ ਨਹੀਂ ਕਰਦਾ।

ਸਿਸਟਮ ਇੱਕ thinker-performer ਵੰਡ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ: • thinker ਪੈਰਸੈਪਸ਼ਨ (perception) ਅਤੇ ਸਟੇਟ ਅਪਡੇਟਸ ਨੂੰ ਸੰਭਾਲਦਾ ਹੈ। • performer ਜਨਰੇਸ਼ਨ ਦੀ ਅਗਲੀ ਇਕਾਈ ਨੂੰ ਸੰਭਾਲਦਾ ਹੈ।

ਇਹ ਓਵਰਲੈਪ ਲੂਪ ਦੇ ਹਿੱਸਿਆਂ ਨੂੰ ਇੱਕ ਦੂਜੇ ਨੂੰ ਰੋਕਣ ਤੋਂ ਰੋਕਦਾ ਹੈ। ਮਾਡਲ ਲਗਭਗ 200 ms model-side latency ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਕੁੱਲ ਇੰਟਰੈਕਸ਼ਨ ਲੇਟੈਂਸੀ (latency) ਲਗਭਗ 550 ms ਰਹਿੰਦੀ ਹੈ।

ਜਦੋਂ ਜਵਾਬ ਦਾ ਸਮਾਂ ਇੱਕ ਸੈਕੰਡ ਤੋਂ ਘੱਟ ਰਹਿੰਦਾ ਹੈ, ਤਾਂ ਗੱਲਬਾਤ ਲਾਈਵ ਮਹਿਸੂਸ ਹੁੰਦੀ ਹੈ। ਇਹ ਇਹਨਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ: • ਕਸਟਮਰ ਸਪੋਰਟ ਅਵਤਾਰ। • ਟਿਊਟਰਿੰਗ ਏਜੰਟ। • ਟੈਲੀਪ੍ਰੈਜ਼ੈਂਸ ਟੂਲਜ਼। • ਇੰਟਰਐਕਟਿਵ ਡੈਮੋਜ਼।

Wan-Streamer ਅਜੇ ਵੀ ਵਰਜ਼ਨ 0.1 ਵਿੱਚ ਹੈ। ਵੀਡੀਓ ਕੁਆਲਿਟੀ ਘੱਟ ਹੈ। ਇੱਕ ਸਿੰਗਲ ਮਾਡਲ ਸੁਰੱਖਿਆ ਜਾਂ ਭਰੋਸੇਯੋਗਤਾ ਦੀ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਨਹੀਂ ਕਰਦਾ। ਹਾਲਾਂਕਿ, ਇਹ ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ ਇੰਟਰੈਕਸ਼ਨ ਲੂਪ ਦੀ ਬਣਤਰ ਮਹੱਤਵਪੂਰਨ ਹੈ।

ਜੇਕਰ ਤੁਸੀਂ ਰੀਅਲ-ਟਾਈਮ AI ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ ਇਹ ਸਵਾਲ ਪੁੱਛੋ: • ਕੀ ਤੁਸੀਂ ਵੱਖ-ਵੱਖ ਮੋਡੀਊਲਾਂ ਨੂੰ ਇੱਕ ਬੈਕਬੋਨ (backbone) ਵਿੱਚ ਜੋੜ ਸਕਦੇ ਹੋ? • ਤੁਹਾਡੀ ਪਾਈਪਲਾਈਨ (pipeline) ਵਿੱਚ ਦੇਰੀ ਕਿੱਥੇ ਹੋ ਰਹੀ ਹੈ? • ਦੇਰੀ ਘਟਾਉਣ ਲਈ ਕਿਹੜੇ ਹਿੱਸੇ ਇੱਕ ਦੂਜੇ ਦੇ ਉੱਪਰ ਕੰਮ (overlap) ਕਰ ਸਕਦੇ ਹਨ?

ਰੀਅਲ-ਟਾਈਮ AI ਵਿੱਚ, ਜਾਣਕਾਰੀ ਦੇ ਜਾਣ ਦਾ ਤਰੀਕਾ ਹੀ ਅਸਲ ਉਤਪਾਦ ਹੈ।

ਸਰੋਤ: https://dev.to/prabhakar_chaudhary_7afe4/why-real-time-ai-assistants-are-hard-and-what-wan-streamer-v01-changes-3m70

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

ਰੀਅਲ-ਟਾਈਮ AI ਸਹਾਇਕ ਕਿਉਂ ਚੁਣੌਤੀਪੂਰਨ ਹਨ

ਰੀਅਲ-ਟਾਈਮ AI ਸਹਾਇਕ ਬਣਾਉਣਾ ਕਿਉਂ ਮੁਸ਼ਕਲ ਹੈ

Continue reading

𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗛𝗮𝘃𝗲 𝗔 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

Building Real Time Voice AI with LiveKit and FastAPI

Beyond Sandboxes: Building Durable AI Agents