Mereka Bentuk Saluran TTS Berasaskan Sampel

Menukarkan ayat pendek kepada audio adalah mudah. Anda menghantar teks ke perkhidmatan, memilih suara, dan mendapatkan fail.

Teks berformat panjang adalah berbeza. Apabila anda beralih daripada ayat kepada buku atau artikel panjang, sistem akan menghadapi cabaran baharu. Anda mesti menguruskan struktur, rentak, dan gangguan format.

Saya mempelajari perkara ini semasa membina penjanaan gaya buku audio. Pada mulanya, saya menganggap aliran kerja tersebut sebagai satu langkah tunggal. Saya menghantar teks dan mengharapkan audio. Ini gagal untuk kandungan yang panjang.

Perenggan yang kelihatan bagus di skrin sering kali kedengaran berat apabila dituturkan. Tajuk bercampur dengan ayat. Dialog menjadi mengelirukan. Teks web sering mengandungi format tersembunyi yang merosakkan aliran.

Model suara jarang sekali menjadi satu-satunya masalah. Sering kali, teks input itu sendiri belum bersedia untuk audio.

TTS berformat panjang memerlukan saluran (pipeline), bukan sekadar satu panggilan. Gunakan aliran kerja berasaskan sampel.

Ikuti langkah-langkah ini:

Bersihkan teks terlebih dahulu. Jika anda menampal kandungan daripada PDF atau laman web, ia mengandungi gangguan (noise). Nombor halaman, pengepala yang berulang, dan item menu mengganggu pengalaman pendengaran. Pembersihan mesti dilakukan sebelum anda menjana audio. Sebaik sahaja audio dicipta, membetulkan ralat teks menjadi mahal dan lambat.

Seterusnya, betulkan struktur. Orang membaca secara berbeza daripada cara mereka mendengar. Pembaca boleh mengimbas atau membaca semula. Pendengar bergantung pada rentak dan jeda.

Pecahkan teks anda kepada blok. Satu blok harus mewakili satu unit pendengaran. Untuk bukan fiksyen, ini adalah satu idea. Untuk fiksyen, ini adalah satu rentak babak (scene beat).

Penjanaan berasaskan blok juga membantu jurutera. Ia membolehkan anda mencuba semula bahagian yang gagal, menyimpan cache output, dan mencantumkan segmen dengan mudah.

Langkah yang paling penting ialah pratonton. Jangan jana audio penuh terlebih dahulu. Sampel ringkas mengesahkan pengalaman tersebut. Ia menjawab soalan yang tidak dapat dijawab oleh teks sahaja:

Jika sampel ringkas kedengaran buruk, jangan sekadar menukar suara. Betulkan teks sumber. Membuang satu nama yang salah sebutan dalam satu sampel dapat menyelamatkan anda daripada membetulkannya berpuluh-puluh kali dalam sebuah buku penuh.

Aliran kerja berasaskan sampel mengurangkan kesilapan dan merendahkan kos. Ia menjadikan proses lebih selamat untuk pengguna dan lebih mudah untuk sistem.

Kualiti audio anda bermula sebelum penjanaan bermula. Ia bermula dengan input.

Sumber: https://dev.to/w_gregorin_f9af40278cc86d/designing-a-sample-first-tts-pipeline-for-long-form-text-3543