ഒരു സാമ്പിൾ ഫസ്റ്റ് TTS പൈപ്പ്‌ലൈൻ രൂപകൽപ്പന ചെയ്യുന്നു

📅4 hours ago⏱2 min read

ഒരു സാമ്പിൾ-ആദ്യ (Sample-First) TTS പൈപ്പ്‌ലൈൻ രൂപകൽപ്പന ചെയ്യൽ

ഒരു ചെറിയ വാചകത്തെ ഓഡിയോയാക്കി മാറ്റുന്നത് എളുപ്പമാണ്. നിങ്ങൾ ഒരു സർവീസിലേക്ക് ടെക്സ്റ്റ് അയക്കുന്നു, ഒരു ശബ്ദം തിരഞ്ഞെടുക്കുന്നു, എന്നിട്ട് ഒരു ഫയൽ ലഭിക്കുന്നു.

എന്നാൽ ദൈർഘ്യമേറിയ ടെക്സ്റ്റുകൾ (Long-form text) വ്യത്യസ്തമാണ്. വാചകങ്ങളിൽ നിന്ന് പുസ്തകങ്ങളിലേക്കോ വലിയ ലേഖനങ്ങളിലേക്കോ മാറുമ്പോൾ, സിസ്റ്റം പുതിയ വെല്ലുവിളികൾ നേരിടുന്നു. ഘടന (structure), വേഗത (pacing), ഫോർമാറ്റിംഗ് നോയിസ് (formatting noise) എന്നിവ നിങ്ങൾ നിയന്ത്രിക്കേണ്ടതുണ്ട്.

ഓഡിയോബുക്ക് ശൈലിയിലുള്ള ജനറേഷൻ നിർമ്മിക്കുന്നതിനിടയിലാണ് ഞാൻ ഇത് പഠിച്ചത്. തുടക്കത്തിൽ ഞാൻ ഈ വർക്ക്ഫ്ലോയെ ഒരു ഒറ്റ ഘട്ടമായിട്ടാണ് കണ്ടിരുന്നത്. ഞാൻ ടെക്സ്റ്റ് അയക്കുകയും ഓഡിയോ പ്രതീക്ഷിക്കുകയും ചെയ്തു. എന്നാൽ ദൈർഘ്യമേറിയ ഉള്ളടക്കത്തിന് ഇത് പരാജയപ്പെട്ടു.

സ്ക്രീനിൽ കാണാൻ നല്ലതെന്ന് തോന്നുന്ന പാരഗ്രാഫുകൾ പലപ്പോഴും സംസാരിക്കുമ്പോൾ കേൾക്കാൻ അസ്വസ്ഥതയുണ്ടാക്കാം. ഹെഡിംഗുകൾ വാചകങ്ങളുമായി കലർന്നുപോകുന്നു. സംഭാഷണങ്ങൾ ആശയക്കുഴപ്പമുണ്ടാക്കുന്നു. വെബ് ടെക്സ്റ്റുകളിൽ പലപ്പോഴും ഒഴുക്ക് തടസ്സപ്പെടുത്തുന്ന തരത്തിലുള്ള മറഞ്ഞിരിക്കുന്ന ഫോർമാറ്റിംഗുകൾ ഉണ്ടാകാറുണ്ട്.

വോയ്‌സ് മോഡൽ (voice model) എന്നത് മാത്രമായിരിക്കില്ല പലപ്പോഴും പ്രശ്നം. പലപ്പോഴും, ഇൻപുട്ട് ടെക്സ്റ്റ് ഓഡിയോയ്ക്കായി തയ്യാറല്ല എന്നതാണ് യഥാർത്ഥ കാരണം.

ദൈർഘ്യമേറിയ TTS-ന് ഒരു സിംഗിൾ കോളിന് പകരം ഒരു പൈപ്പ്‌ലൈൻ ആവശ്യമാണ്. ഒരു സാമ്പിൾ-ആദ്യ (sample-first) വർക്ക്ഫ്ലോ ഉപയോഗിക്കുക.

ഈ ഘട്ടങ്ങൾ പിന്തുടരുക:

ഇൻപുട്ട് ടെക്സ്റ്റ് ക്ലീൻ ചെയ്യുക.
ടെക്സ്റ്റിനെ ഓഡിയോയ്ക്ക് അനുയോജ്യമായ ബ്ലോക്കുകളായി തിരിക്കുക.
ഒരു ചെറിയ പ്രിവ്യൂ (preview) നിർമ്മിക്കുക.
സാമ്പിൾ പരിശോധിക്കുക.
സാമ്പിൾ ശരിയാണെങ്കിൽ മാത്രം മുന്നോട്ട് പോവുക.

ആദ്യം ടെക്സ്റ്റ് ക്ലീൻ ചെയ്യുക. നിങ്ങൾ ഒരു PDF-ൽ നിന്നോ വെബ്‌സൈറ്റിൽ നിന്നോ ഉള്ള ഉള്ളടക്കം കോപ്പി ചെയ്താൽ അതിൽ അനാവശ്യമായ കാര്യങ്ങൾ (noise) ഉണ്ടാകാൻ സാധ്യതയുണ്ട്. പേജ് നമ്പറുകൾ, ആവർത്തിച്ചുവരുന്ന ഹെഡറുകൾ, മെനു ഐറ്റങ്ങൾ എന്നിവ കേൾവി അനുഭവം തടസ്സപ്പെടുത്തുന്നു. ഓഡിയോ നിർമ്മിക്കുന്നതിന് മുമ്പ് തന്നെ ക്ലീൻ അപ്പ് ചെയ്യണം. ഒരിക്കൽ ഓഡിയോ നിർമ്മിച്ചു കഴിഞ്ഞാൽ, ടെക്സ്റ്റിലെ തെറ്റുകൾ തിരുത്തുന്നത് ചിലവേറിയതും സാവധാനത്തിലുള്ളതുമായ പ്രക്രിയയായി മാറും.

അടുത്തതായി, ഘടന (structure) ശരിയാക്കുക. ആളുകൾ വായിക്കുന്ന രീതിയും കേൾക്കുന്ന രീതിയും വ്യത്യസ്തമാണ്. വായനക്കാർക്ക് വേഗത്തിൽ നോക്കാനോ വീണ്ടും വായിക്കാനോ സാധിക്കും. എന്നാൽ ശ്രോതാക്കൾ വേഗതയെയും (pacing) ഇടവേളകളെയും (pauses) ആശ്രയിക്കുന്നു.

നിങ്ങളുടെ ടെക്സ്റ്റിനെ ബ്ലോക്കുകളായി തിരിക്കുക. ഓരോ ബ്ലോക്കും ഒരു ലിസണിംഗ് യൂണിറ്റ് (listening unit) ആയിരിക്കണം. നോൺ-ഫിക്ഷൻ (nonfiction) ആണെങ്കിൽ ഇത് ഒരു ആശയമായിരിക്കണം. ഫിക്ഷൻ (fiction) ആണെങ്കിൽ ഇത് ഒരു സീൻ ബീറ്റ് (scene beat) ആയിരിക്കണം.

ബ്ലോക്ക് അടിസ്ഥാനമാക്കിയുള്ള ജനറേഷൻ എഞ്ചിനീയർമാരെയും സഹായിക്കുന്നു. പരാജയപ്പെട്ട ഭാഗങ്ങൾ വീണ്ടും ശ്രമിക്കാനും (retry), ഔട്ട്‌പുട്ടുകൾ കാഷെ (cache) ചെയ്യാനും, സെഗ്‌മെന്റുകൾ എളുപ്പത്തിൽ യോജിപ്പിക്കാനും ഇത് അനുവദിക്കുന്നു.

ഏറ്റവും പ്രധാനപ്പെട്ട ഘട്ടം പ്രിവ്യൂ (preview) ആണ്. ആദ്യം മുഴുവൻ ഓഡിയോയും നിർമ്മിക്കരുത്. ഒരു ചെറിയ സാമ്പിൾ അനുഭവം ശരിയാണോ എന്ന് ഉറപ്പുവരുത്തുന്നു. ടെക്സ്റ്റ് കൊണ്ട് മാത്രം ഉത്തരം ലഭിക്കാത്ത ചോദ്യങ്ങൾക്ക് ഇത് മറുപടി നൽകുന്നു:

ശബ്ദം ഉള്ളടക്കത്തിന് അനുയോജ്യമാണോ?
വേഗത സ്വാഭാവികമാണോ?
ഇടവേളകൾ ശരിയായ സ്ഥലങ്ങളിലാണോ?
സംഭാഷണങ്ങൾ വ്യക്തമാണോ?

ഒരു ചെറിയ സാമ്പിൾ മോശമാണെങ്കിൽ, വെറുതെ ശബ്ദം മാറ്റിയതുകൊണ്ട് മാത്രം കാര്യമില്ല. മറിച്ച് സ്രോതസ്സ് ടെക്സ്റ്റ് (source text) ശരിയാക്കുക. ഒരു സാമ്പിളിൽ തെറ്റായി ഉച്ചരിക്കപ്പെടുന്ന ഒരു പേര് മാറ്റുന്നത്, ഒരു മുഴുവൻ പുസ്തകത്തിലും അത് ഡസൻ കണക്കിന് തവണ തിരുത്തുന്നതിൽ നിന്ന് നിങ്ങളെ രക്ഷിക്കും.

ഒരു സാമ്പിൾ-ആദ്യ (sample-first) വർക്ക്ഫ്ലോ തെറ്റുകൾ കുറയ്ക്കുകയും ചിലവ് കുറയ്ക്കുകയും ചെയ്യുന്നു. ഇത് ഉപയോക്താവിന് പ്രക്രിയ കൂടുതൽ സുരക്ഷിതമാക്കുകയും സിസ്റ്റത്തിന് എളുപ്പമാക്കുകയും ചെയ്യുന്നു.

നിങ്ങളുടെ ഓഡിയോയുടെ ഗുണമേന്മ ജനറേഷൻ തുടങ്ങുന്നതിന് മുമ്പേ ആരംഭിക്കുന്നു. അത് ഇൻപുട്ടിൽ നിന്നാണ് തുടങ്ങുന്നത്.

ഉറവിടം: https://dev.to/w_gregorin_f9af40278cc86d/designing-a-sample-first-tts-pipeline-for-long-form-text-3543

ഒരു സാമ്പിൾ ഫസ്റ്റ് TTS പൈപ്പ്‌ലൈൻ രൂപകൽപ്പന ചെയ്യുന്നു

Continue reading

AI ടൂളുകൾക്കായുള്ള ബ്രാൻഡ് വോയ്‌സ് ട്രെയിനിംഗ്

𝗧𝗵𝗶𝘀 𝗜𝘀 𝗔 𝗚𝗨𝗜𝗗𝗘 𝗧𝗢 𝗖𝗛𝗔𝗧𝗚𝗣𝗧 𝗣𝗥𝗢𝗠𝗣𝗧 𝗘𝗡𝗚𝗜𝗡𝗘𝗘𝗥𝗜𝗡𝗚

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗔𝘂𝘁𝗼𝗻𝗼𝗺𝗼𝘂𝘀 𝗔𝗴𝗲𝗻𝘁 𝗧𝗲𝗮𝗺

𝗜𝗻𝘁𝗿𝗼 𝘁𝗼 𝗚𝗲𝗻 𝗔𝗜 𝗳𝗼𝗿 𝗣𝘆𝘁𝗵𝗼𝗻 𝗕𝗲𝗴𝗶𝗻𝗻𝗲𝗿𝘀

𝗗𝗲𝘀𝗶𝗴𝗻𝗶𝗻𝗴 𝗮 𝗦𝗮𝗺𝗽𝗹𝗲 𝗙𝗶𝗿𝘀𝘁 𝗧𝗧𝗦 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲