𝗗𝗲𝘀𝗶𝗴𝗻𝗶𝗻𝗴 𝗮 𝗦𝗮𝗺𝗽𝗹𝗲-𝗙𝗶𝗿𝘀𝘁 𝗧𝗧𝗦 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲

ਇੱਕ ਛੋਟੇ ਵਾਕ ਨੂੰ ਆਡੀਓ ਵਿੱਚ ਬਦਲਣਾ ਆਸਾਨ ਹੈ। ਤੁਸੀਂ ਕਿਸੇ ਸਰਵਿਸ ਨੂੰ ਟੈਕਸਟ ਭੇਜਦੇ ਹੋ, ਇੱਕ ਆਵਾਜ਼ ਚੁਣਦੇ ਹੋ, ਅਤੇ ਇੱਕ ਫਾਈਲ ਪ੍ਰਾਪਤ ਕਰਦੇ ਹੋ।

ਲੰਬੇ ਰੂਪ ਵਾਲਾ ਟੈਕਸਟ (Long-form text) ਇੱਕ ਵੱਖਰੀ ਸਮੱਸਿਆ ਹੈ।

ਜਦੋਂ ਤੁਸੀਂ ਵਾਕਾਂ ਤੋਂ ਲੇਖਾਂ, ਕਿਤਾਬਾਂ, ਜਾਂ ਟਿਊਟੋਰਿਅਲ ਵੱਲ ਵਧਦੇ ਹੋ, ਤਾਂ ਸਿਸਟਮ ਨੂੰ ਸਿਰਫ਼ ਟੈਕਸਟ ਤੋਂ ਵੱਧ ਕੁਝ ਸੰਭਾਲਣ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸ ਨੂੰ ਬਣਤਰ (structure), ਗਤੀ (pacing), ਅਤੇ ਫਾਰਮੈਟਿੰਗ ਦੇ ਸ਼ੋਰ (formatting noise) ਨੂੰ ਸੰਭਾਲਣਾ ਚਾਹੀਦਾ ਹੈ।

ਮੈਂ ਇਹ ਆਡੀਓਬੁੱਕ-ਸ਼ੈਲੀ ਦੀ ਜਨਰੇਸ਼ਨ ਬਣਾਉਂਦੇ ਸਮੇਂ ਸਿੱਖਿਆ। ਲੰਬੇ ਟੈਕਸਟ ਨੂੰ ਇੱਕ ਸਿੰਗਲ TTS ਕਾਲ ਵਾਂਗ ਮੰਨਣਾ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ। ਸਕ੍ਰੀਨ 'ਤੇ ਵਧੀਆ ਲੱਗਣ ਵਾਲੇ ਪੈਰੇ ਅਕਸਰ ਬੋਲਣ ਵੇਲੇ ਭਾਰੇ ਲੱਗਦੇ ਹਨ। ਹੈਡਿੰਗਾਂ ਅਗਲੇ ਵਾਕ ਦੇ ਬਹੁਤ ਨੇੜੇ ਪੜ੍ਹੀਆਂ ਜਾਂਦੀਆਂ ਹਨ। ਸੰਵਾਦ (Dialogue) ਨੂੰ ਸਮਝਣਾ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦਾ ਹੈ।

ਇਸ ਨੂੰ ਬਣਾਉਣ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕਾ ਇੱਕ ਸੈਂਪਲ-ਪਹਿਲਾਂ (sample-first) ਪਾਈਪਲਾਈਨ ਹੈ।

ਤੁਰੰਤ ਪੂਰੀ ਆਡੀਓ ਜਨਰੇਟ ਨਾ ਕਰੋ। ਇਸ ਦੀ ਬਜਾਏ ਇਹਨਾਂ ਕਦਮਾਂ ਦੀ ਪਾਲਣਾ ਕਰੋ:

ਟੈਕਸਟ ਦੀ ਸਫਾਈ ਪਹਿਲਾ ਅਤੇ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਹੈ। ਜੇਕਰ ਉਪਭੋਗਤਾ PDF ਜਾਂ ਵੈੱਬ ਪੇਜ ਤੋਂ ਟੈਕਸਟ ਪੇਸਟ ਕਰਦੇ ਹਨ, ਤਾਂ ਇਸ ਵਿੱਚ ਅਕਸਰ ਪੇਜ ਨੰਬਰ, ਵਾਰ-ਵਾਰ ਆਉਣ ਵਾਲੇ ਹੈਡਰ, ਜਾਂ ਟੁੱਟੀਆਂ ਹੋਈਆਂ ਲਾਈਨਾਂ ਹੁੰਦੀਆਂ ਹਨ। ਇੱਕ ਇਨਸਾਨ ਪੜ੍ਹਦੇ ਸਮੇਂ ਇਹਨਾਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰ ਦਿੰਦਾ ਹੈ। ਇੱਕ TTS ਸਿਸਟਮ ਇਹਨਾਂ ਨੂੰ ਉੱਚੀ ਪੜ੍ਹਦਾ ਹੈ, ਜੋ ਅਨੁਭਵ ਨੂੰ ਖਰਾਬ ਕਰ ਦਿੰਦਾ ਹੈ। ਆਡੀਓ ਜਨਰੇਟ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਸਫਾਈ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ।

ਅਗਲਾ, ਬਣਤਰ (structure) 'ਤੇ ਧਿਆਨ ਦਿਓ। ਆਡੀਓ ਵਿੱਚ ਵਿਜ਼ੂਅਲ ਸੰਕੇਤਾਂ ਦੀ ਕਮੀ ਹੁੰਦੀ ਹੈ। ਸੁਣਨ ਵਾਲੇ ਗਤੀ (pacing) ਅਤੇ ਵਿਰਾਮ (pauses) 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ। ਤੁਹਾਨੂੰ ਲੰਬੇ ਟੈਕਸਟ ਨੂੰ ਬਲਾਕਾਂ ਵਿੱਚ ਵੰਡਣਾ ਚਾਹੀਦਾ ਹੈ। ਇੱਕ ਬਲਾਕ ਇੱਕ ਵਿਚਾਰ ਜਾਂ ਇੱਕ ਸੀਨ ਦੀ ਪ੍ਰਤੀਨਿਧਤਾ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਇਸ ਨਾਲ ਅਸਫਲ ਹਿੱਸਿਆਂ ਨੂੰ ਦੁਬਾਰਾ ਕੋਸ਼ਿਸ਼ ਕਰਨਾ ਅਤੇ ਨਤੀਜਿਆਂ ਨੂੰ ਕੈਸ਼ (cache) ਕਰਨਾ ਆਸਾਨ ਹੋ ਜਾਂਦਾ ਹੈ।

ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਪ੍ਰੀਵਿਊ ਹੈ।

ਇੱਕ ਛੋਟਾ ਸੈਂਪਲ ਤੁਹਾਨੂੰ ਸਮਾਂ ਜਾਂ ਪੈਸਾ ਬਰਬਾਦ ਕੀਤੇ ਬਿਨਾਂ ਅਨੁਭਵ ਦੀ ਜਾਂਚ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਸਿਰਫ਼ ਇਹ ਨਾ ਪੁੱਛੋ ਕਿ ਕੀ ਆਵਾਜ਼ ਅਸਲੀ ਲੱਗਦੀ ਹੈ। ਇਹ ਸਵਾਲ ਪੁੱਛੋ:

ਜੇਕਰ ਆਡੀਓ ਮਾੜੀ ਸੁਣਾਈ ਦਿੰਦੀ ਹੈ, ਤਾਂ ਹਮੇਸ਼ਾ ਵੌਇਸ ਮਾਡਲ ਸਮੱਸਿਆ ਨਹੀਂ ਹੁੰਦੀ। ਅਕਸਰ, ਟੈਕਸਟ ਸੁਣਨ ਲਈ ਤਿਆਰ ਨਹੀਂ ਸੀ।

ਇੱਕ ਸੈਂਪਲ-ਪਹਿਲਾਂ (sample-first) ਵਰਕਫਲੋ ਗਲਤੀਆਂ ਦੀ ਲਾਗਤ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ। ਇਹ ਉਪਭੋਗਤਾ ਲਈ ਸੁਰੱਖਿਅਤ ਹੈ ਅਤੇ ਸਿਸਟਮ ਲਈ ਵਧੇਰੇ ਕੁਸ਼ਲ ਹੈ।

ਆਡੀਓ ਦੀ ਗੁਣਵੱਤਾ ਜਨਰੇਸ਼ਨ ਸ਼ੁਰੂ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ। ਇਹ ਇਨਪੁਟ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦੀ ਹੈ।

Source: https://dev.to/w_gregorin_f9af40278cc86d/designing-a-sample-first-tts-pipeline-for-long-form-text-3543

Optional learning community: https://t.me/GyaanSetuAi