एक सैंपल-फर्स्ट TTS पाइपलाइन डिजाइन करना

📅4 hours ago⏱2 min read

𝗗𝗲𝘀𝗶𝗴𝗻𝗶𝗻𝗴 𝗮 𝗦𝗮𝗺𝗽𝗹𝗲-𝗙𝗶𝗿𝘀𝘁 𝗧𝗧𝗦 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲

एक छोटे वाक्य को ऑडियो में बदलना आसान है। आप किसी सर्विस को टेक्स्ट भेजते हैं, एक आवाज़ चुनते हैं, और एक फ़ाइल प्राप्त करते हैं।

लॉन्ग-फॉर्म टेक्स्ट अलग होता है। जब आप वाक्यों से हटकर किताबों या लंबे लेखों की ओर बढ़ते हैं, तो सिस्टम के सामने नई बाधाएं आती हैं। आपको स्ट्रक्चर, पेसिंग और फॉर्मेटिंग के शोर (noise) को मैनेज करना होगा।

मैंने यह ऑडियोबुक-शैली के जनरेशन को बनाते समय सीखा। शुरुआत में मैंने वर्कफ़्लो को एक एकल चरण (single step) के रूप में माना। मैंने टेक्स्ट भेजा और ऑडियो की उम्मीद की। लंबे कंटेंट के लिए यह तरीका विफल रहा।

जो पैराग्राफ स्क्रीन पर अच्छे दिखते हैं, वे बोलने पर अक्सर भारी लगते हैं। हेडिंग्स वाक्यों में मिल जाती हैं। संवाद (dialogue) भ्रमित करने वाला हो जाता है। वेब टेक्स्ट में अक्सर छिपी हुई फॉर्मेटिंग होती है जो प्रवाह (flow) को खराब कर देती है।

वॉइस मॉडल शायद ही कभी एकमात्र समस्या होती है। अक्सर, इनपुट टेक्स्ट बस ऑडियो के लिए तैयार नहीं होता है।

लॉन्ग-फॉर्म TTS के लिए एक पाइपलाइन की आवश्यकता होती है, न कि केवल एक सिंगल कॉल की। एक सैंपल-फर्स्ट वर्कफ़्लो का उपयोग करें।

इन चरणों का पालन करें:

इनपुट टेक्स्ट को साफ़ करें।
टेक्स्ट को ऑडियो-फ्रेंडली ब्लॉक्स में विभाजित करें।
एक छोटा प्रीव्यू जनरेट करें।
सैंपल की समीक्षा करें।
केवल तभी आगे बढ़ें जब सैंपल सही लगे।

सबसे पहले टेक्स्ट को साफ़ करें। यदि आप किसी PDF या वेबसाइट से कंटेंट पेस्ट करते हैं, तो उसमें शोर (noise) होता है। पेज नंबर, बार-बार आने वाले हेडर और मेनू आइटम सुनने के अनुभव को बाधित करते हैं। ऑडियो जनरेट करने से पहले सफाई (cleanup) होनी चाहिए। एक बार ऑडियो बन जाने के बाद, टेक्स्ट की गलतियों को ठीक करना महंगा और धीमा हो जाता है।

इसके बाद, स्ट्रक्चर को ठीक करें। लोग सुनने की तुलना में अलग तरह से पढ़ते हैं। पाठक स्कैन कर सकते हैं या दोबारा पढ़ सकते हैं। श्रोता पेसिंग और पॉज़ (विराम) पर निर्भर करते हैं।

अपने टेक्स्ट को ब्लॉक्स में विभाजित करें। एक ब्लॉक को सुनने की एक इकाई (listening unit) का प्रतिनिधित्व करना चाहिए। नॉन-फिक्शन के लिए, यह एक विचार है। फिक्शन के लिए, यह एक सीन बीट (scene beat) है।

ब्लॉक-आधारित जनरेशन इंजीनियरों की भी मदद करता है। यह आपको विफल सेक्शन को फिर से आज़माने, आउटपुट को कैश करने और सेगमेंट को आसानी से एक साथ जोड़ने की अनुमति देता है।

सबसे महत्वपूर्ण कदम प्रीव्यू है। पहले पूरा ऑडियो जनरेट न करें। एक छोटा सैंपल अनुभव की पुष्टि करता है। यह उन सवालों के जवाब देता है जो केवल टेक्स्ट नहीं दे सकता:

क्या आवाज़ सामग्री के अनुकूल है?
क्या पेसिंग प्राकृतिक है?
क्या पॉज़ सही जगहों पर हैं?
क्या संवाद स्पष्ट है?

यदि एक छोटा सैंपल खराब सुनाई देता है, तो केवल आवाज़ न बदलें। सोर्स टेक्स्ट को ठीक करें। सैंपल में एक गलत उच्चारित नाम को हटाने से आप पूरी किताब में उसे दर्जनों बार ठीक करने से बच जाते हैं।

एक सैंपल-फर्स्ट वर्कफ़्लो गलतियों को कम करता है और लागत घटाता है। यह प्रक्रिया को उपयोगकर्ता के लिए सुरक्षित और सिस्टम के लिए आसान बनाता है।

आपके ऑडियो की गुणवत्ता जनरेशन शुरू होने से पहले ही शुरू हो जाती है। इसकी शुरुआत इनपुट से होती है।

स्रोत: https://dev.to/w_gregorin_f9af40278cc86d/designing-a-sample-first-tts-pipeline-for-long-form-text-3543

एक सैंपल-फर्स्ट TTS पाइपलाइन डिजाइन करना

Continue reading

AI टूल्स के लिए ब्रांड वॉइस ट्रेनिंग

𝗧𝗵𝗶𝘀 𝗜𝘀 𝗔 𝗚𝗨𝗜𝗗𝗘 𝗧𝗢 𝗖𝗛𝗔𝗧𝗚𝗣𝗧 𝗣𝗥𝗢𝗠𝗣𝗧 𝗘𝗡𝗚𝗜𝗡𝗘𝗘𝗥𝗜𝗡𝗚

एक ऑटोनॉमस एजेंट टीम बनाना

𝗜𝗻𝘁𝗿𝗼 𝘁𝗼 𝗚𝗲𝗻 𝗔𝗜 𝗳𝗼𝗿 𝗣𝘆𝘁𝗵𝗼𝗻 𝗕𝗲𝗴𝗶𝗻𝗻𝗲𝗿𝘀

एक सैंपल-फर्स्ट TTS पाइपलाइन का डिज़ाइन तैयार करना