Mereka Bentuk Pipeline TTS Berasaskan Sampel

Menukarkan ayat pendek kepada audio adalah mudah. Anda hantar teks ke perkhidmatan, pilih suara, dan dapatkan fail.

Teks berformat panjang adalah masalah yang berbeza.

Apabila anda beralih daripada ayat kepada artikel, buku, atau tutorial, sistem mesti mengendalikan lebih daripada sekadar teks. Ia mesti mengendalikan struktur, rentak, dan gangguan format.

Saya mempelajari perkara ini semasa membina penjanaan gaya buku audio. Menganggap teks panjang sebagai satu panggilan TTS sahaja akan gagal. Perenggan yang kelihatan bagus di skrin sering kali kedengaran berat apabila dibacakan. Tajuk dibaca terlalu rapat dengan ayat seterusnya. Dialog menjadi sukar untuk diikuti.

Cara terbaik untuk membina ini adalah dengan pipeline berasaskan sampel.

Jangan jana audio penuh dengan segera. Sebaliknya, ikuti langkah-langkah ini:

Pembersihan teks adalah langkah pertama dan paling penting. Jika pengguna menampal teks daripada PDF atau laman web, ia sering mengandungi nombor halaman, pengepala yang berulang, atau baris yang terputus. Manusia akan mengabaikan perkara ini semasa membaca. Sistem TTS akan membacanya dengan kuat, yang akan merosakkan pengalaman tersebut. Pembersihan mesti dilakukan sebelum anda menjana audio.

Seterusnya, fokus pada struktur. Audio tidak mempunyai petunjuk visual. Pendengar bergantung pada rentak dan jeda. Anda harus memecahkan teks panjang kepada blok. Satu blok harus mewakili satu idea atau satu babak. Ini memudahkan cubaan semula bahagian yang gagal dan menyimpan hasil dalam cache.

Bahagian yang paling kritikal adalah pratonton.

Sampel ringkas membolehkan anda mengesahkan pengalaman tersebut tanpa membazir masa atau wang. Jangan sekadar bertanya sama ada suara itu kedengaran realistik. Tanya soalan-soalan ini:

Jika audio kedengaran buruk, model suara tidak selalunya menjadi puncanya. Sering kali, teks tersebut belum bersedia untuk didengar.

Aliran kerja berasaskan sampel mengurangkan kos kesilapan. Ia lebih selamat untuk pengguna dan lebih cekap untuk sistem.

Kualiti audio bermula sebelum penjanaan bermula. Ia bermula dengan input.

Sumber: https://dev.to/w_gregorin_f9af40278cc86d/designing-a-sample-first-tts-pipeline-for-long-form-text-3543

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi