ਜ਼ਿਆਦਾਤਰ ਵੌਇਸ-AI ਪਾਇਲਟ ਕਿਉਂ ਫੇਲ ਹੋ ਜਾਂਦੇ ਹਨ
ਜ਼ਿਆਦਾਤਰ ਵੌਇਸ AI ਪਾਇਲਟ ਇਸ ਲਈ ਫੇਲ ਹੋ ਜਾਂਦੇ ਹਨ ਕਿਉਂਕਿ ਉਹ ਅਸਲ ਦੁਨੀਆ ਦੀਆਂ ਸਥਿਤੀਆਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਦੇ ਹਨ। ਇੱਕ ਕਲਾਇੰਟ ਨੇ ਪਹਿਲੇ ਹੀ ਦਿਨ $4,200 ਦਾ ਓਵਰਟਾਈਮ ਭੁਗਤਾਨ ਗੁਆ ਦਿੱਤਾ ਕਿਉਂਕਿ ਉਹਨਾਂ ਦਾ ਸਿਸਟਮ ਬਹੁਤ ਹੌਲੀ ਸੀ।
ਜੇਕਰ ਤੁਸੀਂ ਚਾਹੁੰਦੇ ਹੋ ਕਿ ਤੁਹਾਡਾ ਵੌਇਸ AI ਕੰਮ ਕਰੇ, ਤਾਂ ਤੁਹਾਨੂੰ ਇਹਨਾਂ ਚਾਰ ਖੇਤਰਾਂ ਵਿੱਚ ਮਾਹਰ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ।
- Latency (ਦੇਰੀ) ਨੂੰ ਕੰਟਰੋਲ ਕਰੋ ਇਨਸਾਨਾਂ ਨੂੰ ਰੁਕਾਵਟਾਂ ਪਸੰਦ ਨਹੀਂ ਹਨ। ਜੇਕਰ ਜਵਾਬ ਦੇਣ ਵਿੱਚ 300ms ਤੋਂ ਵੱਧ ਸਮਾਂ ਲੱਗਦਾ ਹੈ, ਤਾਂ ਕਾਲ ਕਰਨ ਵਾਲੇ ਫੋਨ ਕੱਟ ਦਿੰਦੇ ਹਨ। ਜ਼ਿਆਦਾਤਰ ਟੀਮਾਂ ਆਡੀਓ ਚੇਨ ਦੇ ਹਰ ਕਦਮ ਦੀ ਗਿਣਤੀ ਕਰਨਾ ਭੁੱਲ ਜਾਂਦੀਆਂ ਹਨ।
ਆਮ ਦੇਰੀਆਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ: • Mic capture: 10ms • Network jitter: 20ms • ASR service: 120ms • Intent engine: 30ms • TTS synthesis: 80ms • Audio render: 12ms
ਕੁੱਲ: 272ms। ਤੁਸੀਂ ਪਹਿਲਾਂ ਹੀ ਸੀਮਾ ਦੇ ਨੇੜੇ ਹੋ।
ਹੱਲ: ਹਰ ਕਦਮ ਲਈ ਇੱਕ ਲੇਟੈਂਸੀ ਬਜਟ ਸੈੱਟ ਕਰੋ। ਅਸੀਂ ਇੱਕ ਵਾਰ TTS ਬਿਟਰੇਟ ਨੂੰ 24kbps ਤੋਂ ਘਟਾ ਕੇ 16kbps ਕਰ ਦਿੱਤਾ ਸੀ। ਇਸ ਨਾਲ ਕੁਆਲਿਟੀ ਵਿੱਚ ਬਿਨਾਂ ਕਿਸੇ ਕਮੀ ਦੇ 45ms ਦੀ ਬਚਤ ਹੋਈ।
- ਅਸਲ ਸ਼ੋਰ (Noise) ਲਈ ਟ੍ਰੇਨਿੰਗ ਦਿਓ ਬਹੁਤ ਸਾਰੇ ਪਾਇਲਟ ਸ਼ਾਂਤ ਕਮਰੇ ਦੇ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ਅਸਲ ਦਫ਼ਤਰਾਂ ਵਿੱਚ ਸ਼ੋਰ ਹੁੰਦਾ ਹੈ। ਉੱਚ ਸ਼ੋਰ ਪੱਧਰ ਤੁਹਾਡੀ ਸ਼ੁੱਧਤਾ (accuracy) ਨੂੰ ਖਰਾਬ ਕਰ ਦਿੰਦਾ ਹੈ। ਇੱਕ ਸਟਾਰਟਅੱਪ ਦੀ ਸ਼ੁੱਧਤਾ 94% ਤੋਂ ਡਿੱਗ ਕੇ 61% ਰਹਿ ਗਈ ਕਿਉਂਕਿ ਉਹਨਾਂ ਦਾ ਮਾਡਲ ਬੈਕਗ੍ਰਾਊਂਡ ਸ਼ੋਰ ਨੂੰ ਸੰਭਾਲ ਨਹੀਂ ਸਕਿਆ।
ਹੱਲ: ਅਸਲ ਕੰਮ ਵਾਲੀ ਥਾਂ 'ਤੇ 48 ਘੰਟਿਆਂ ਦੀ ਆਡੀਓ ਰਿਕਾਰਡ ਕਰੋ। ਆਪਣੇ ਮਾਡਲ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਉਸ ਸ਼ੋਰ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ AI ਉੱਥੇ ਕੰਮ ਕਰੇ ਜਿੱਥੇ ਲੋਕ ਅਸਲ ਵਿੱਚ ਬੈਠਦੇ ਹਨ।
- ਆਪਣੀ ਸ਼ਬਦਾਵਲੀ (Vocabulary) ਨੂੰ ਪੜਾਵਾਂ ਵਿੱਚ ਵੰਡੋ ਇੱਕੋ ਵਾਰ ਹਜ਼ਾਰਾਂ ਪ੍ਰੋਡਕਟ ਕੋਡ ਜੋੜਨ ਨਾਲ ਮਾਡਲ ਖਰਾਬ ਹੋ ਜਾਂਦਾ ਹੈ। ਇਸ ਨਾਲ ਬਹੁਤ ਸਾਰੀਆਂ ਗਲਤੀਆਂ ਹੁੰਦੀਆਂ ਹਨ। ਇੱਕ ਫਰਮ ਨੇ 3,400 ਕੋਡ ਜੋੜ ਦਿੱਤੇ ਅਤੇ ਉਹਨਾਂ ਦੀ ਕੰਪਲਾਇੰਸ ਟੀਮ ਨੂੰ ਗਲਤ ਕਾਲਾਂ ਨਾਲ ਭਰ ਦਿੱਤਾ।
ਹੱਲ: ਤਿੰਨ-ਪੜਾਵੀ ਰੋਲਆਊਟ ਦੀ ਵਰਤੋਂ ਕਰੋ: • ਪੜਾਅ 1: Core intents (300 ਸ਼ਬਦ)। • ਪੜਾਅ 2: High-impact jargon (400 ਸ਼ਬਦ)। • ਪੜਾਅ 3: Long-tail terms (ਲੁੱਕਅੱਪ ਸਰਵਿਸ ਦੀ ਵਰਤੋਂ ਕਰੋ)।
- ਤੇਜ਼ ਮਾਨਵੀ ਫਾਲਬੈਕ (Human Fallback) ਰੱਖੋ ਫਾਲਬੈਕ ਇੱਕ ਸੁਰੱਖਿਆ ਵਾਲਵ ਵਾਂਗ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਫੇਲ ਹੋਏ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚ ਫਾਲਬੈਕ ਦੇਰੀ 9 ਸੈਕਿੰਡ ਤੋਂ ਵੱਧ ਹੁੰਦੀ ਹੈ। ਸਫਲ ਪ੍ਰੋਜੈਕਟ ਇਸਨੂੰ 5 ਸੈਕਿੰਡ ਤੋਂ ਘੱਟ ਰੱਖਦੇ ਹਨ।
ਹੱਲ: ਪਹਿਲੇ ਦਿਨ ਤੋਂ ਹੀ ਲਾਈਵ ਏਜੰਟ ਪਾਥ ਖੁੱਲ੍ਹਾ ਰੱਖੋ। ਹਰ ਰਾਤ ਆਪਣੇ ਬੋਟ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਫੇਲ ਹੋਈਆਂ ਕਾਲਾਂ ਦੇ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟਸ ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਸਫਲ ਪਾਇਲਟਾਂ ਦੇ ਨਤੀਜੇ: • Latency: 280ms ਤੋਂ ਘੱਟ • Noise: ਅਸਲ ਵਾਤਾਵਰਣ ਵਿੱਚ ਮਜ਼ਬੂਤ • Vocabulary: ਪੜਾਵੀ ਪਹੁੰਚ • Fallback: 5 ਸੈਕਿੰਡ ਤੋਂ ਘੱਟ
ਇਹ ਕਦਮ 3.8x ROI ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਅਤੇ ਹੈਂਡਲਿੰਗ ਸਮੇਂ ਨੂੰ 27 ਸੈਕਿੰਡ ਘਟਾਉਂਦੇ ਹਨ।
ਸਰੋਤ: https://dev.to/isabelle_dubuis_d858453d7/why-most-voice-ai-pocs-fail-and-the-4-that-didnt-55e4
ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi