ഒരു സാമ്പിൾ-ആദ്യ TTS പൈപ്പ്‌ലൈൻ രൂപകൽപ്പന ചെയ്യൽ

ഒരു ചെറിയ വാചകത്തെ ഓഡിയോയാക്കി മാറ്റുന്നത് എളുപ്പമാണ്. നിങ്ങൾ ഒരു സർവീസിലേക്ക് ടെക്സ്റ്റ് അയക്കുന്നു, ഒരു ശബ്ദം തിരഞ്ഞെടുക്കുന്നു, എന്നിട്ട് ഒരു ഫയൽ ലഭിക്കുന്നു.

ദൈർഘ്യമേറിയ ടെക്സ്റ്റുകൾ (Long-form text) മറ്റൊരു പ്രശ്നമാണ്.

വാചകങ്ങളിൽ നിന്ന് ലേഖനങ്ങൾ, പുസ്തകങ്ങൾ അല്ലെങ്കിൽ ട്യൂട്ടോറിയലുകളിലേക്ക് മാറുമ്പോൾ, സിസ്റ്റം വെറും ടെക്സ്റ്റ് മാത്രമല്ല കൈകാര്യം ചെയ്യേണ്ടത്. അത് ഘടന (structure), വേഗത (pacing), ഫോർമാറ്റിംഗ് നോയിസ് (formatting noise) എന്നിവയും കൈകാര്യം ചെയ്യണം.

ഓഡിയോബുക്ക് ശൈലിയിലുള്ള ജനറേഷൻ നിർമ്മിക്കുന്നതിനിടയിലാണ് ഞാൻ ഇത് പഠിച്ചത്. ദൈർഘ്യമേറിയ ടെക്സ്റ്റിനെ ഒരു സിംഗിൾ TTS കോൾ ആയി പരിഗണിക്കുന്നത് പരാജയപ്പെടും. സ്ക്രീനിൽ കാണാൻ നല്ലതെന്ന് തോന്നുന്ന പാരഗ്രാഫുകൾ സംസാരിക്കുമ്പോൾ പലപ്പോഴും ഭാരമായി തോന്നാം. ഹെഡിംഗുകൾ അടുത്ത വാചകത്തോട് വളരെ അടുത്ത് വായിക്കപ്പെടും. സംഭാഷണങ്ങൾ പിന്തുടരാൻ പ്രയാസമായി മാറും.

ഇത് നിർമ്മിക്കാനുള്ള ഏറ്റവും നല്ല മാർഗ്ഗം ഒരു സാമ്പിൾ-ആദ്യ (sample-first) പൈപ്പ്‌ലൈൻ ആണ്.

ഉടൻ തന്നെ മുഴുവൻ ഓഡിയോയും ജനറേറ്റ് ചെയ്യരുത്. പകരം ഈ ഘട്ടങ്ങൾ പിന്തുടരുക:

ടെക്സ്റ്റ് ക്ലീനപ്പ് ആണ് ആദ്യത്തെയും ഏറ്റവും പ്രധാനപ്പെട്ടതുമായ ഘട്ടം. ഉപയോക്താക്കൾ ഒരു PDF അല്ലെങ്കിൽ വെബ് പേജിൽ നിന്നുള്ള ടെക്സ്റ്റ് പേസ്റ്റ് ചെയ്യുമ്പോൾ, അതിൽ പലപ്പോഴും പേജ് നമ്പറുകൾ, ആവർത്തിച്ചുവരുന്ന ഹെഡറുകൾ അല്ലെങ്കിൽ മുറിഞ്ഞുപോയ വരികൾ എന്നിവ ഉണ്ടാകാം. വായിക്കുമ്പോൾ ഒരു മനുഷ്യൻ ഇവ അവഗണിക്കും. എന്നാൽ ഒരു TTS സിസ്റ്റം ഇവ ഉച്ചത്തിൽ വായിക്കും, ഇത് കേൾവിക്കാരന്റെ അനുഭവം തകരാറിലാക്കും. ഓഡിയോ ജനറേറ്റ് ചെയ്യുന്നതിന് മുമ്പ് ക്ലീനപ്പ് നിർബന്ധമായും ചെയ്യണം.

അടുത്തതായി, ഘടനയിൽ (structure) ശ്രദ്ധ കേന്ദ്രീകരിക്കുക. ഓഡിയോയിൽ ദൃശ്യപരമായ സൂചനകൾ (visual cues) ഇല്ല. കേൾവിക്കാർ വേഗതയെയും (pacing) ഇടവേളകളെയും (pauses) ആശ്രയിക്കുന്നു. നിങ്ങൾ ദൈർഘ്യമേറിയ ടെക്സ്റ്റിനെ ബ്ലോക്കുകളായി തിരിക്കണം. ഒരു ബ്ലോക്ക് ഒരു ആശയത്തെയോ അല്ലെങ്കിൽ ഒരു രംഗത്തെയോ പ്രതിനിധീകരിക്കണം. ഇത് പരാജയപ്പെട്ട ഭാഗങ്ങൾ വീണ്ടും ശ്രമിക്കാനും (retry) ഫലങ്ങൾ കാഷെ (cache) ചെയ്യാനും എളുപ്പമാക്കുന്നു.

ഏറ്റവും നിർണ്ണായകമായ ഭാഗം പ്രിവ്യൂ ആണ്.

സമയം അല്ലെങ്കിൽ പണം പാഴാക്കാതെ തന്നെ അനുഭവം ശരിയാണോ എന്ന് പരിശോധിക്കാൻ ഒരു ചെറിയ സാമ്പിൾ നിങ്ങളെ സഹായിക്കുന്നു. ശബ്ദം യഥാർത്ഥമാണോ എന്ന് മാത്രം ചോദിക്കരുത്. പകരം ഈ ചോദ്യങ്ങൾ ചോദിക്കുക:

ഓഡിയോ മോശമായി തോന്നുന്നുണ്ടെങ്കിൽ, എപ്പോഴും വോയിസ് മോഡൽ (voice model) ആയിരിക്കില്ല പ്രശ്നം. പലപ്പോഴും, ടെക്സ്റ്റ് കേൾക്കാൻ പാകത്തിലായിരിക്കില്ല.

ഒരു സാമ്പിൾ-ആദ്യ വർക്ക്ഫ്ലോ (sample-first workflow) തെറ്റുകളുടെ ചിലവ് കുറയ്ക്കുന്നു. ഇത് ഉപയോക്താവിന് സുരക്ഷിതവും സിസ്റ്റത്തിന് കൂടുതൽ കാര്യക്ഷമവുമാണ്.

ഓഡിയോയുടെ ഗുണനിലവാരം ജനറേഷൻ തുടങ്ങുന്നതിന് മുമ്പ് തന്നെ ആരംഭിക്കുന്നു. അത് ഇൻപുട്ടിൽ നിന്നാണ് തുടങ്ങുന്നത്.

Source: https://dev.to/w_gregorin_f9af40278cc86d/designing-a-sample-first-tts-pipeline-for-long-form-text-3543

Optional learning community: https://t.me/GyaanSetuAi