𝗗𝗲𝘀𝗶𝗴𝗻𝗶𝗻𝗴 𝗮 𝗦𝗮𝗺𝗽𝗹𝗲 𝗙𝗶𝗿𝘀𝘁 𝗧𝗧𝗦 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲

📅4 hours ago⏱2 min read

Mereka Bentuk Saluran TTS Berasaskan Sampel

Menukarkan ayat pendek kepada audio adalah mudah. Anda menghantar teks ke perkhidmatan, memilih suara, dan mendapatkan fail.

Teks berformat panjang adalah berbeza. Apabila anda beralih daripada ayat kepada buku atau artikel panjang, sistem akan menghadapi cabaran baharu. Anda mesti menguruskan struktur, rentak, dan gangguan format.

Saya mempelajari perkara ini semasa membina penjanaan gaya buku audio. Pada mulanya, saya menganggap aliran kerja tersebut sebagai satu langkah tunggal. Saya menghantar teks dan mengharapkan audio. Ini gagal untuk kandungan yang panjang.

Perenggan yang kelihatan bagus di skrin sering kali kedengaran berat apabila dituturkan. Tajuk bercampur dengan ayat. Dialog menjadi mengelirukan. Teks web sering mengandungi format tersembunyi yang merosakkan aliran.

Model suara jarang sekali menjadi satu-satunya masalah. Sering kali, teks input itu sendiri belum bersedia untuk audio.

TTS berformat panjang memerlukan saluran (pipeline), bukan sekadar satu panggilan. Gunakan aliran kerja berasaskan sampel.

Ikuti langkah-langkah ini:

Bersihkan teks input.
Pecahkan teks kepada blok yang mesra audio.
Jana pratonton ringkas.
Semak sampel tersebut.
Teruskan hanya jika sampel tersebut berjaya.

Bersihkan teks terlebih dahulu. Jika anda menampal kandungan daripada PDF atau laman web, ia mengandungi gangguan (noise). Nombor halaman, pengepala yang berulang, dan item menu mengganggu pengalaman pendengaran. Pembersihan mesti dilakukan sebelum anda menjana audio. Sebaik sahaja audio dicipta, membetulkan ralat teks menjadi mahal dan lambat.

Seterusnya, betulkan struktur. Orang membaca secara berbeza daripada cara mereka mendengar. Pembaca boleh mengimbas atau membaca semula. Pendengar bergantung pada rentak dan jeda.

Pecahkan teks anda kepada blok. Satu blok harus mewakili satu unit pendengaran. Untuk bukan fiksyen, ini adalah satu idea. Untuk fiksyen, ini adalah satu rentak babak (scene beat).

Penjanaan berasaskan blok juga membantu jurutera. Ia membolehkan anda mencuba semula bahagian yang gagal, menyimpan cache output, dan mencantumkan segmen dengan mudah.

Langkah yang paling penting ialah pratonton. Jangan jana audio penuh terlebih dahulu. Sampel ringkas mengesahkan pengalaman tersebut. Ia menjawab soalan yang tidak dapat dijawab oleh teks sahaja:

Adakah suara tersebut sesuai dengan bahan?
Adakah rentaknya semula jadi?
Adakah jeda berada di tempat yang betul?
Adakah dialognya jelas?

Jika sampel ringkas kedengaran buruk, jangan sekadar menukar suara. Betulkan teks sumber. Membuang satu nama yang salah sebutan dalam satu sampel dapat menyelamatkan anda daripada membetulkannya berpuluh-puluh kali dalam sebuah buku penuh.

Aliran kerja berasaskan sampel mengurangkan kesilapan dan merendahkan kos. Ia menjadikan proses lebih selamat untuk pengguna dan lebih mudah untuk sistem.

Kualiti audio anda bermula sebelum penjanaan bermula. Ia bermula dengan input.

Sumber: https://dev.to/w_gregorin_f9af40278cc86d/designing-a-sample-first-tts-pipeline-for-long-form-text-3543

𝗗𝗲𝘀𝗶𝗴𝗻𝗶𝗻𝗴 𝗮 𝗦𝗮𝗺𝗽𝗹𝗲 𝗙𝗶𝗿𝘀𝘁 𝗧𝗧𝗦 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲

Continue reading

Latihan Suara Jenama untuk Alatan AI

𝗧𝗵𝗶𝘀 𝗜𝘀 𝗔 𝗚𝗨𝗜𝗗𝗘 𝗧𝗢 𝗖𝗛𝗔𝗧𝗚𝗣𝗧 𝗣𝗥𝗢𝗠𝗣𝗧 𝗘𝗡𝗚𝗜𝗡𝗘𝗘𝗥𝗜𝗡𝗚

Membina Pasukan Ejen Autonomi

Pengenalan kepada Gen AI untuk Pemula Python

𝗗𝗲𝘀𝗶𝗴𝗻𝗶𝗻𝗴 𝗮 𝗦𝗮𝗺𝗽𝗹𝗲 𝗙𝗶𝗿𝘀𝘁 𝗧𝗧𝗦 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲