ਰੀਅਲ-ਟਾਈਮ AI ਸਹਾਇਕ ਬਣਾਉਣਾ ਕਿਉਂ ਮੁਸ਼ਕਲ ਹੈ
ਰੀਅਲ-ਟਾਈਮ AI ਬਣਾਉਣਾ ਮੁਸ਼ਕਲ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਪ੍ਰਣਾਲੀਆਂ ਵੱਖ-ਵੱਖ ਹਿੱਸਿਆਂ ਦੀ ਇੱਕ ਲੜੀ ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ। ਇੱਕ ਹਿੱਸਾ ਆਵਾਜ਼ ਦੀ ਪਛਾਣ ਕਰਦਾ ਹੈ। ਦੂਜਾ ਬੋਲ ਨੂੰ ਟੈਕਸਟ ਵਿੱਚ ਬਦਲਦਾ ਹੈ। ਤੀਜਾ ਇੱਕ ਜਵਾਬ ਤਿਆਰ ਕਰਦਾ ਹੈ। ਚੌਥਾ ਟੈਕਸਟ ਨੂੰ ਆਵਾਜ਼ ਵਿੱਚ ਬਦਲਦਾ ਹੈ। ਪੰਜਵਾਂ ਇੱਕ ਅਵਤਾਰ (avatar) ਰੈਂਡਰ ਕਰਦਾ ਹੈ।
ਇਹਨਾਂ ਹਿੱਸਿਆਂ ਵਿਚਕਾਰ ਹਰ ਇੱਕ ਤਬਦੀਲੀ (handoff) ਦੇਰੀ ਪੈਦਾ ਕਰਦੀ ਹੈ। ਹਰ ਸੀਮਾ ਸਮੇਂ ਦੀਆਂ ਗਲਤੀਆਂ ਪੈਦਾ ਕਰਦੀ ਹੈ। ਇਸ ਨਾਲ ਗੱਲਬਾਤ ਰੋਬੋਟਿਕ ਮਹਿਸੂਸ ਹੁੰਦੀ ਹੈ।
Wan-Streamer v0.1 ਇਸ ਪਹੁੰਚ ਨੂੰ ਬਦਲ ਦਿੰਦਾ ਹੈ। ਵੱਖ-ਵੱਖ ਸੇਵਾਵਾਂ ਦੀ ਬਜਾਏ, ਇਹ ਇੱਕ ਸਿੰਗਲ streaming Transformer ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਆਡੀਓ, ਵੀਡੀਓ ਅਤੇ ਟੈਕਸਟ ਨੂੰ ਇੱਕ ਸਿੰਗਲ ਲੂਪ ਵਜੋਂ ਮੰਨਦਾ ਹੈ।
ਸਟੈਂਡਰਡ ਸਹਾਇਕ ਇਸ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰਦੇ ਹਨ: • ਯੂਜ਼ਰ ਬੋਲਦਾ ਹੈ। • ਸਿਸਟਮ ਬੋਲ ਨੂੰ ਟੈਕਸਟ ਵਿੱਚ ਬਦਲਦਾ ਹੈ। • ਮਾਡਲ ਇੱਕ ਟੈਕਸਟ ਜਵਾਬ ਤਿਆਰ ਕਰਦਾ ਹੈ। • ਸਿਸਟਮ ਟੈਕਸਟ ਨੂੰ ਆਵਾਜ਼ ਵਿੱਚ ਬਦਲਦਾ ਹੈ। • ਅਵਤਾਰ ਆਡੀਓ ਦੇ ਨਾਲ ਲਿਪ-ਸਿੰਕ (sync lips) ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ।
ਇਹ ਤਰੀਕਾ ਕਮਜ਼ੋਰ ਹੈ। ਜੇਕਰ ਇੱਕ ਕਦਮ ਸੁਸਤ ਹੈ, ਤਾਂ ਪੂਰੀ ਪ੍ਰਣਾਲੀ ਉਡੀਕਦੀ ਹੈ। ਜੇਕਰ ਯੂਜ਼ਰ ਵਿਚਾਲੇ ਬੋਲ ਪਵੇ, ਤਾਂ ਸਿਸਟਮ ਅਕਸਰ ਇਸ ਨੂੰ ਨੋਟ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ।
Wan-Streamer ਭਾਸ਼ਾ, ਆਡੀਓ ਅਤੇ ਵੀਡੀਓ ਨੂੰ ਇਕੱਠੇ ਮਾਡਲ ਕਰਕੇ ਇਸ ਨੂੰ ਹੱਲ ਕਰਦਾ ਹੈ। ਇਹ block-causal attention ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਮਾਡਲ ਨੂੰ ਆਪਣੀ ਸਥਿਤੀ (state) ਨੂੰ ਲਗਾਤਾਰ ਅਪਡੇਟ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਇਹ ਕੰਮ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਪੂਰੇ ਟਰਨ (turn) ਦੇ ਖਤਮ ਹੋਣ ਦੀ ਉਡੀਕ ਨਹੀਂ ਕਰਦਾ।
ਸਿਸਟਮ ਇੱਕ thinker-performer ਵੰਡ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ: • thinker ਪੈਰਸੈਪਸ਼ਨ (perception) ਅਤੇ ਸਟੇਟ ਅਪਡੇਟਸ ਨੂੰ ਸੰਭਾਲਦਾ ਹੈ। • performer ਜਨਰੇਸ਼ਨ ਦੀ ਅਗਲੀ ਇਕਾਈ ਨੂੰ ਸੰਭਾਲਦਾ ਹੈ।
ਇਹ ਓਵਰਲੈਪ ਲੂਪ ਦੇ ਹਿੱਸਿਆਂ ਨੂੰ ਇੱਕ ਦੂਜੇ ਨੂੰ ਰੋਕਣ ਤੋਂ ਰੋਕਦਾ ਹੈ। ਮਾਡਲ ਲਗਭਗ 200 ms model-side latency ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਕੁੱਲ ਇੰਟਰੈਕਸ਼ਨ ਲੇਟੈਂਸੀ (latency) ਲਗਭਗ 550 ms ਰਹਿੰਦੀ ਹੈ।
ਜਦੋਂ ਜਵਾਬ ਦਾ ਸਮਾਂ ਇੱਕ ਸੈਕੰਡ ਤੋਂ ਘੱਟ ਰਹਿੰਦਾ ਹੈ, ਤਾਂ ਗੱਲਬਾਤ ਲਾਈਵ ਮਹਿਸੂਸ ਹੁੰਦੀ ਹੈ। ਇਹ ਇਹਨਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ: • ਕਸਟਮਰ ਸਪੋਰਟ ਅਵਤਾਰ। • ਟਿਊਟਰਿੰਗ ਏਜੰਟ। • ਟੈਲੀਪ੍ਰੈਜ਼ੈਂਸ ਟੂਲਜ਼। • ਇੰਟਰਐਕਟਿਵ ਡੈਮੋਜ਼।
Wan-Streamer ਅਜੇ ਵੀ ਵਰਜ਼ਨ 0.1 ਵਿੱਚ ਹੈ। ਵੀਡੀਓ ਕੁਆਲਿਟੀ ਘੱਟ ਹੈ। ਇੱਕ ਸਿੰਗਲ ਮਾਡਲ ਸੁਰੱਖਿਆ ਜਾਂ ਭਰੋਸੇਯੋਗਤਾ ਦੀ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਨਹੀਂ ਕਰਦਾ। ਹਾਲਾਂਕਿ, ਇਹ ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ ਇੰਟਰੈਕਸ਼ਨ ਲੂਪ ਦੀ ਬਣਤਰ ਮਹੱਤਵਪੂਰਨ ਹੈ।
ਜੇਕਰ ਤੁਸੀਂ ਰੀਅਲ-ਟਾਈਮ AI ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ ਇਹ ਸਵਾਲ ਪੁੱਛੋ: • ਕੀ ਤੁਸੀਂ ਵੱਖ-ਵੱਖ ਮੋਡੀਊਲਾਂ ਨੂੰ ਇੱਕ ਬੈਕਬੋਨ (backbone) ਵਿੱਚ ਜੋੜ ਸਕਦੇ ਹੋ? • ਤੁਹਾਡੀ ਪਾਈਪਲਾਈਨ (pipeline) ਵਿੱਚ ਦੇਰੀ ਕਿੱਥੇ ਹੋ ਰਹੀ ਹੈ? • ਦੇਰੀ ਘਟਾਉਣ ਲਈ ਕਿਹੜੇ ਹਿੱਸੇ ਇੱਕ ਦੂਜੇ ਦੇ ਉੱਪਰ ਕੰਮ (overlap) ਕਰ ਸਕਦੇ ਹਨ?
ਰੀਅਲ-ਟਾਈਮ AI ਵਿੱਚ, ਜਾਣਕਾਰੀ ਦੇ ਜਾਣ ਦਾ ਤਰੀਕਾ ਹੀ ਅਸਲ ਉਤਪਾਦ ਹੈ।
ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi
