𝗗𝗲𝘀𝗶𝗴𝗻𝗶𝗻𝗴 𝗮 𝗦𝗮𝗺𝗽𝗹𝗲-𝗙𝗶𝗿𝘀𝘁 𝗧𝗧𝗦 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲
ਇੱਕ ਛੋਟੇ ਵਾਕ ਨੂੰ ਆਡੀਓ ਵਿੱਚ ਬਦਲਣਾ ਆਸਾਨ ਹੈ। ਤੁਸੀਂ ਕਿਸੇ ਸਰਵਿਸ ਨੂੰ ਟੈਕਸਟ ਭੇਜਦੇ ਹੋ, ਇੱਕ ਆਵਾਜ਼ ਚੁਣਦੇ ਹੋ, ਅਤੇ ਇੱਕ ਫਾਈਲ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹੋ।
ਲੰਬੇ ਰੂਪ ਵਾਲਾ ਟੈਕਸਟ (Long-form text) ਇੱਕ ਵੱਖਰੀ ਸਮੱਸਿਆ ਹੈ।
ਜਦੋਂ ਤੁਸੀਂ ਵਾਕਾਂ ਤੋਂ ਲੇਖਾਂ, ਕਿਤਾਬਾਂ, ਜਾਂ ਟਿਊਟੋਰਿਅਲ ਵੱਲ ਵਧਦੇ ਹੋ, ਤਾਂ ਸਿਸਟਮ ਨੂੰ ਸਿਰਫ਼ ਟੈਕਸਟ ਤੋਂ ਵੱਧ ਕੁਝ ਸੰਭਾਲਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸ ਨੂੰ ਬਣਤਰ (structure), ਗਤੀ (pacing), ਅਤੇ ਫਾਰਮੈਟਿੰਗ ਦੇ ਸ਼ੋਰ (formatting noise) ਨੂੰ ਸੰਭਾਲਣਾ ਚਾਹੀਦਾ ਹੈ।
ਮੈਂ ਇਹ ਆਡੀਓਬੁੱਕ-ਸ਼ੈਲੀ ਦੀ ਜਨਰੇਸ਼ਨ ਬਣਾਉਂਦੇ ਸਮੇਂ ਸਿੱਖਿਆ। ਲੰਬੇ ਟੈਕਸਟ ਨੂੰ ਇੱਕ ਸਿੰਗਲ TTS ਕਾਲ ਵਾਂਗ ਮੰਨਣਾ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ। ਸਕ੍ਰੀਨ 'ਤੇ ਵਧੀਆ ਲੱਗਣ ਵਾਲੇ ਪੈਰੇ ਅਕਸਰ ਬੋਲਣ ਵੇਲੇ ਭਾਰੇ ਲੱਗਦੇ ਹਨ। ਹੈਡਿੰਗਾਂ ਅਗਲੇ ਵਾਕ ਦੇ ਬਹੁਤ ਨੇੜੇ ਪੜ੍ਹੀਆਂ ਜਾਂਦੀਆਂ ਹਨ। ਸੰਵਾਦ (Dialogue) ਨੂੰ ਸਮਝਣਾ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦਾ ਹੈ।
ਇਸ ਨੂੰ ਬਣਾਉਣ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕਾ ਇੱਕ ਸੈਂਪਲ-ਪਹਿਲਾਂ (sample-first) ਪਾਈਪਲਾਈਨ ਹੈ।
ਤੁਰੰਤ ਪੂਰੀ ਆਡੀਓ ਜਨਰੇਟ ਨਾ ਕਰੋ। ਇਸ ਦੀ ਬਜਾਏ ਇਹਨਾਂ ਕਦਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰੋ:
- ਇਨਪੁਟ ਟੈਕਸਟ ਨੂੰ ਸਾਫ਼ ਕਰੋ
- ਟੈਕਸਟ ਨੂੰ ਆਡੀਓ-ਅਨੁਕੂਲ ਬਲਾਕਾਂ ਵਿੱਚ ਵੰਡੋ
- ਇੱਕ ਛੋਟਾ ਪ੍ਰੀਵਿਊ ਜਨਰੇਟ ਕਰੋ
- ਸੈਂਪਲ ਦੀ ਸਮੀਖਿਆ ਕਰੋ
- ਪੂਰਾ ਕੰਟੈਂਟ ਉਦੋਂ ਹੀ ਜਨਰੇਟ ਕਰੋ ਜੇਕਰ ਸੈਂਪਲ ਸਹੀ ਕੰਮ ਕਰਦਾ ਹੈ
ਟੈਕਸਟ ਦੀ ਸਫਾਈ ਪਹਿਲਾ ਅਤੇ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਹੈ। ਜੇਕਰ ਉਪਭੋਗਤਾ PDF ਜਾਂ ਵੈੱਬ ਪੇਜ ਤੋਂ ਟੈਕਸਟ ਪੇਸਟ ਕਰਦੇ ਹਨ, ਤਾਂ ਇਸ ਵਿੱਚ ਅਕਸਰ ਪੇਜ ਨੰਬਰ, ਵਾਰ-ਵਾਰ ਆਉਣ ਵਾਲੇ ਹੈਡਰ, ਜਾਂ ਟੁੱਟੀਆਂ ਹੋਈਆਂ ਲਾਈਨਾਂ ਹੁੰਦੀਆਂ ਹਨ। ਇੱਕ ਇਨਸਾਨ ਪੜ੍ਹਦੇ ਸਮੇਂ ਇਹਨਾਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰ ਦਿੰਦਾ ਹੈ। ਇੱਕ TTS ਸਿਸਟਮ ਇਹਨਾਂ ਨੂੰ ਉੱਚੀ ਪੜ੍ਹਦਾ ਹੈ, ਜੋ ਅਨੁਭਵ ਨੂੰ ਖਰਾਬ ਕਰ ਦਿੰਦਾ ਹੈ। ਆਡੀਓ ਜਨਰੇਟ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਸਫਾਈ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ।
ਅਗਲਾ, ਬਣਤਰ (structure) 'ਤੇ ਧਿਆਨ ਦਿਓ। ਆਡੀਓ ਵਿੱਚ ਵਿਜ਼ੂਅਲ ਸੰਕੇਤਾਂ ਦੀ ਕਮੀ ਹੁੰਦੀ ਹੈ। ਸੁਣਨ ਵਾਲੇ ਗਤੀ (pacing) ਅਤੇ ਵਿਰਾਮ (pauses) 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ। ਤੁਹਾਨੂੰ ਲੰਬੇ ਟੈਕਸਟ ਨੂੰ ਬਲਾਕਾਂ ਵਿੱਚ ਵੰਡਣਾ ਚਾਹੀਦਾ ਹੈ। ਇੱਕ ਬਲਾਕ ਇੱਕ ਵਿਚਾਰ ਜਾਂ ਇੱਕ ਸੀਨ ਦੀ ਪ੍ਰਤੀਨਿਧਤਾ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਇਸ ਨਾਲ ਅਸਫਲ ਹਿੱਸਿਆਂ ਨੂੰ ਦੁਬਾਰਾ ਕੋਸ਼ਿਸ਼ ਕਰਨਾ ਅਤੇ ਨਤੀਜਿਆਂ ਨੂੰ ਕੈਸ਼ (cache) ਕਰਨਾ ਆਸਾਨ ਹੋ ਜਾਂਦਾ ਹੈ।
ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਪ੍ਰੀਵਿਊ ਹੈ।
ਇੱਕ ਛੋਟਾ ਸੈਂਪਲ ਤੁਹਾਨੂੰ ਸਮਾਂ ਜਾਂ ਪੈਸਾ ਬਰਬਾਦ ਕੀਤੇ ਬਿਨਾਂ ਅਨੁਭਵ ਦੀ ਜਾਂਚ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਸਿਰਫ਼ ਇਹ ਨਾ ਪੁੱਛੋ ਕਿ ਕੀ ਆਵਾਜ਼ ਅਸਲੀ ਲੱਗਦੀ ਹੈ। ਇਹ ਸਵਾਲ ਪੁੱਛੋ:
- ਕੀ ਗਤੀ (pacing) ਕੁਦਰਤੀ ਲੱਗਦੀ ਹੈ?
- ਕੀ ਵਿਰਾਮ (pauses) ਸਹੀ ਥਾਵਾਂ 'ਤੇ ਹਨ?
- ਕੀ ਸੰਵਾਦ (dialogue) ਸਪਸ਼ਟ ਹੈ?
- ਕੀ ਕੋਈ ਫਾਰਮੈਟਿੰਗ ਸ਼ੋਰ ਹੈ?
ਜੇਕਰ ਆਡੀਓ ਮਾੜੀ ਸੁਣਾਈ ਦਿੰਦੀ ਹੈ, ਤਾਂ ਹਮੇਸ਼ਾ ਵੌਇਸ ਮਾਡਲ ਸਮੱਸਿਆ ਨਹੀਂ ਹੁੰਦੀ। ਅਕਸਰ, ਟੈਕਸਟ ਸੁਣਨ ਲਈ ਤਿਆਰ ਨਹੀਂ ਸੀ।
ਇੱਕ ਸੈਂਪਲ-ਪਹਿਲਾਂ (sample-first) ਵਰਕਫਲੋ ਗਲਤੀਆਂ ਦੀ ਲਾਗਤ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ। ਇਹ ਉਪਭੋਗਤਾ ਲਈ ਸੁਰੱਖਿਅਤ ਹੈ ਅਤੇ ਸਿਸਟਮ ਲਈ ਵਧੇਰੇ ਕੁਸ਼ਲ ਹੈ।
ਆਡੀਓ ਦੀ ਗੁਣਵੱਤਾ ਜਨਰੇਸ਼ਨ ਸ਼ੁਰੂ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ। ਇਹ ਇਨਪੁਟ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ।
Optional learning community: https://t.me/GyaanSetuAi