𝗗𝗲𝘀𝗶𝗴𝗻𝗶𝗻𝗴 𝗮 𝗦𝗮𝗺𝗽𝗹𝗲 𝗙𝗶𝗿𝘀𝘁 𝗧𝗧𝗦 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲

📅4 hours ago⏱2 min read

மாதிரி-முன்னோடி (Sample-First) TTS Pipeline வடிவமைத்தல்

ஒரு சிறிய வாக்கியத்தை ஆடியோவாக மாற்றுவது எளிது. நீங்கள் ஒரு சேவைக்கு உரையை அனுப்பி, ஒரு குரலைத் தேர்ந்தெடுத்து, ஒரு கோப்பைப் பெறலாம்.

நீண்ட வடிவிலான உரை (Long-form text) என்பது முற்றிலும் மாறுபட்ட ஒரு பிரச்சனை.

நீங்கள் வாக்கியங்களிலிருந்து கட்டுரைகள், புத்தகங்கள் அல்லது பயிற்சிக் குறிப்புகளுக்கு (tutorials) மாறும்போது, அந்த அமைப்பு வெறும் உரையை மட்டும் கையாள்வதை விட மேலானது. அது கட்டமைப்பு (structure), வேகம் (pacing) மற்றும் வடிவமைப்பு இரைச்சல்களை (formatting noise) கையாள வேண்டும்.

ஆடியோபுத்தகம் போன்ற உருவாக்கத்தை (audiobook-style generation) உருவாக்கும்போது நான் இதைக் கற்றுக்கொண்டேன். நீண்ட உரையை ஒரே ஒரு TTS அழைப்பாக (single TTS call) கருதுவது தோல்வியடையும். திரையில் பார்க்க நன்றாக இருக்கும் பத்திகள், பேசப்படும்போது பெரும்பாலும் கனமாகத் தோன்றும். தலைப்புகள் அடுத்த வாக்கியத்திற்கு மிக நெருக்கமாக வாசிக்கப்படும். உரையாடல்களைப் பின்பற்றுவது கடினமாகிவிடும்.

இதை உருவாக்குவதற்கான சிறந்த வழி ஒரு மாதிரி-முன்னோடி (sample-first) pipeline ஆகும்.

முழு ஆடியோவையும் உடனடியாக உருவாக்க வேண்டாம். அதற்குப் பதிலாக இந்த வழிமுறைகளைப் பின்பற்றுங்கள்:

உள்ளீட்டு உரையைச் சுத்தப்படுத்துங்கள் (Clean the input text)
உரையை ஆடியோவிற்கு ஏற்ற தொகுதிகளாகப் (blocks) பிரியுங்கள்
ஒரு சிறிய முன்னோட்டத்தை (preview) உருவாக்குங்கள்
மாதிரியை ஆய்வு செய்யுங்கள்
மாதிரி சரியாக இருந்தால் மட்டுமே முழு உள்ளடக்கத்தையும் உருவாக்குங்கள்

உரைச் சுத்திகரிப்பு (Text cleanup) என்பது முதல் மற்றும் மிக முக்கியமான படியாகும். பயனர்கள் ஒரு PDF அல்லது வலைப்பக்கத்திலிருந்து உரையை நகலெடுத்துப் போடும்போது, அதில் பெரும்பாலும் பக்க எண்கள், மீண்டும் மீண்டும் வரும் தலைப்புகள் அல்லது உடைந்த வரிகள் இருக்கலாம். ஒரு மனிதன் வாசிக்கும்போது இவற்றைத் தவிர்த்துவிடுவான். ஆனால் ஒரு TTS அமைப்பு இவற்றை சத்தமாக வாசிக்கும், இது அனுபவத்தைக் கெடுக்கும். ஆடியோவை உருவாக்குவதற்கு முன்பே சுத்திகரிப்பு செய்யப்பட வேண்டும்.

அடுத்து, கட்டமைப்பில் (structure) கவனம் செலுத்துங்கள். ஆடியோவில் காட்சித் தூண்டல்கள் (visual cues) இருப்பதில்லை. கேட்பவர்கள் வேகம் மற்றும் இடைவெளிகளை (pacing and pauses) நம்பியிருக்கிறார்கள். நீங்கள் நீண்ட உரையைத் தொகுதிகளாகப் (blocks) பிரிக்க வேண்டும். ஒரு தொகுதி என்பது ஒரு யோசனை அல்லது ஒரு காட்சியைப் பிரதிபலிக்க வேண்டும். இது தோல்வியடைந்த பகுதிகளை மீண்டும் முயற்சிப்பதற்கும், முடிவுகளைச் சேமித்து வைப்பதற்கும் (cache results) எளிதாக்குகிறது.

மிக முக்கியமான பகுதி முன்னோட்டம் (preview) ஆகும்.

ஒரு சிறிய மாதிரி, நேரம் அல்லது பணத்தை வீணாக்காமல் அனுபவத்தை உறுதிப்படுத்த உதவுகிறது. குரல் உண்மையாகத் தோன்றுகிறதா என்று மட்டும் கேட்காதீர்கள். இந்தக் கேள்விகளைக் கேளுங்கள்:

வேகம் இயற்கையாகத் தோன்றுகிறதா?
இடைவெளிகள் சரியான இடங்களில் உள்ளனவா?
உரையாடல் தெளிவாக உள்ளதா?
ஏதேனும் வடிவமைப்பு இரைச்சல் (formatting noise) உள்ளதா?

ஆடியோ மோசமாகத் தோன்றினால், குரல் மாதிரி (voice model) எப்போதும் பிரச்சனை அல்ல. பெரும்பாலும், உரை கேட்பதற்குத் தயாராக இல்லை என்பதே காரணமாக இருக்கும்.

மாதிரி-முன்னோடி பணிப்பாய்வு (sample-first workflow) தவறுகளின் செலவைக் குறைக்கிறது. இது பயனருக்குப் பாதுகாப்பானது மற்றும் அமைப்பிற்கு அதிகத் திறன் வாய்ந்தது.

ஆடியோவின் தரம் உருவாக்கம் தொடங்குவதற்கு முன்பே தொடங்குகிறது. அது உள்ளீட்டுடன் (input) தொடங்குகிறது.

Source: https://dev.to/w_gregorin_f9af40278cc86d/designing-a-sample-first-tts-pipeline-for-long-form-text-3543

Optional learning community: https://t.me/GyaanSetuAi

𝗗𝗲𝘀𝗶𝗴𝗻𝗶𝗻𝗴 𝗮 𝗦𝗮𝗺𝗽𝗹𝗲 𝗙𝗶𝗿𝘀𝘁 𝗧𝗧𝗦 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲

Continue reading

AI கருவிகளுக்கான பிராண்ட் குரல் பயிற்சி

𝗧𝗵𝗶𝘀 𝗜𝘀 𝗔 𝗚𝗨𝗜𝗗𝗘 𝗧𝗢 𝗖𝗛𝗔𝗧𝗚𝗣𝗧 𝗣𝗥𝗢𝗠𝗣𝗧 𝗘𝗡𝗚𝗜𝗡𝗘𝗘𝗥𝗜𝗡𝗚

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗔𝘂𝘁𝗼𝗻𝗼𝗺𝗼𝘂𝘀 𝗔𝗴𝗲𝗻𝘁 𝗧𝗲𝗮𝗺

பைதான் தொடக்கநிலையாளர்களுக்கான ஜென் ஏஐ அறிமுகம்

ஒரு மாதிரி சார்ந்த TTS பைப்லைனை வடிவமைத்தல்