ഒരു സാമ്പിൾ-ആദ്യ TTS പൈപ്പ്ലൈൻ രൂപകൽപ്പന ചെയ്യൽ
ഒരു ചെറിയ വാചകത്തെ ഓഡിയോയാക്കി മാറ്റുന്നത് എളുപ്പമാണ്. നിങ്ങൾ ഒരു സർവീസിലേക്ക് ടെക്സ്റ്റ് അയക്കുന്നു, ഒരു ശബ്ദം തിരഞ്ഞെടുക്കുന്നു, എന്നിട്ട് ഒരു ഫയൽ ലഭിക്കുന്നു.
ദൈർഘ്യമേറിയ ടെക്സ്റ്റുകൾ (Long-form text) മറ്റൊരു പ്രശ്നമാണ്.
വാചകങ്ങളിൽ നിന്ന് ലേഖനങ്ങൾ, പുസ്തകങ്ങൾ അല്ലെങ്കിൽ ട്യൂട്ടോറിയലുകളിലേക്ക് മാറുമ്പോൾ, സിസ്റ്റം വെറും ടെക്സ്റ്റ് മാത്രമല്ല കൈകാര്യം ചെയ്യേണ്ടത്. അത് ഘടന (structure), വേഗത (pacing), ഫോർമാറ്റിംഗ് നോയിസ് (formatting noise) എന്നിവയും കൈകാര്യം ചെയ്യണം.
ഓഡിയോബുക്ക് ശൈലിയിലുള്ള ജനറേഷൻ നിർമ്മിക്കുന്നതിനിടയിലാണ് ഞാൻ ഇത് പഠിച്ചത്. ദൈർഘ്യമേറിയ ടെക്സ്റ്റിനെ ഒരു സിംഗിൾ TTS കോൾ ആയി പരിഗണിക്കുന്നത് പരാജയപ്പെടും. സ്ക്രീനിൽ കാണാൻ നല്ലതെന്ന് തോന്നുന്ന പാരഗ്രാഫുകൾ സംസാരിക്കുമ്പോൾ പലപ്പോഴും ഭാരമായി തോന്നാം. ഹെഡിംഗുകൾ അടുത്ത വാചകത്തോട് വളരെ അടുത്ത് വായിക്കപ്പെടും. സംഭാഷണങ്ങൾ പിന്തുടരാൻ പ്രയാസമായി മാറും.
ഇത് നിർമ്മിക്കാനുള്ള ഏറ്റവും നല്ല മാർഗ്ഗം ഒരു സാമ്പിൾ-ആദ്യ (sample-first) പൈപ്പ്ലൈൻ ആണ്.
ഉടൻ തന്നെ മുഴുവൻ ഓഡിയോയും ജനറേറ്റ് ചെയ്യരുത്. പകരം ഈ ഘട്ടങ്ങൾ പിന്തുടരുക:
- ഇൻപുട്ട് ടെക്സ്റ്റ് ക്ലീൻ ചെയ്യുക
- ടെക്സ്റ്റിനെ ഓഡിയോയ്ക്ക് അനുയോജ്യമായ ബ്ലോക്കുകളായി തിരിക്കുക
- ഒരു ചെറിയ പ്രിവ്യൂ ജനറേറ്റ് ചെയ്യുക
- സാമ്പിൾ പരിശോധിക്കുക
- സാമ്പിൾ ശരിയാണെങ്കിൽ മാത്രം മുഴുവൻ ഉള്ളടക്കവും ജനറേറ്റ് ചെയ്യുക
ടെക്സ്റ്റ് ക്ലീനപ്പ് ആണ് ആദ്യത്തെയും ഏറ്റവും പ്രധാനപ്പെട്ടതുമായ ഘട്ടം. ഉപയോക്താക്കൾ ഒരു PDF അല്ലെങ്കിൽ വെബ് പേജിൽ നിന്നുള്ള ടെക്സ്റ്റ് പേസ്റ്റ് ചെയ്യുമ്പോൾ, അതിൽ പലപ്പോഴും പേജ് നമ്പറുകൾ, ആവർത്തിച്ചുവരുന്ന ഹെഡറുകൾ അല്ലെങ്കിൽ മുറിഞ്ഞുപോയ വരികൾ എന്നിവ ഉണ്ടാകാം. വായിക്കുമ്പോൾ ഒരു മനുഷ്യൻ ഇവ അവഗണിക്കും. എന്നാൽ ഒരു TTS സിസ്റ്റം ഇവ ഉച്ചത്തിൽ വായിക്കും, ഇത് കേൾവിക്കാരന്റെ അനുഭവം തകരാറിലാക്കും. ഓഡിയോ ജനറേറ്റ് ചെയ്യുന്നതിന് മുമ്പ് ക്ലീനപ്പ് നിർബന്ധമായും ചെയ്യണം.
അടുത്തതായി, ഘടനയിൽ (structure) ശ്രദ്ധ കേന്ദ്രീകരിക്കുക. ഓഡിയോയിൽ ദൃശ്യപരമായ സൂചനകൾ (visual cues) ഇല്ല. കേൾവിക്കാർ വേഗതയെയും (pacing) ഇടവേളകളെയും (pauses) ആശ്രയിക്കുന്നു. നിങ്ങൾ ദൈർഘ്യമേറിയ ടെക്സ്റ്റിനെ ബ്ലോക്കുകളായി തിരിക്കണം. ഒരു ബ്ലോക്ക് ഒരു ആശയത്തെയോ അല്ലെങ്കിൽ ഒരു രംഗത്തെയോ പ്രതിനിധീകരിക്കണം. ഇത് പരാജയപ്പെട്ട ഭാഗങ്ങൾ വീണ്ടും ശ്രമിക്കാനും (retry) ഫലങ്ങൾ കാഷെ (cache) ചെയ്യാനും എളുപ്പമാക്കുന്നു.
ഏറ്റവും നിർണ്ണായകമായ ഭാഗം പ്രിവ്യൂ ആണ്.
സമയം അല്ലെങ്കിൽ പണം പാഴാക്കാതെ തന്നെ അനുഭവം ശരിയാണോ എന്ന് പരിശോധിക്കാൻ ഒരു ചെറിയ സാമ്പിൾ നിങ്ങളെ സഹായിക്കുന്നു. ശബ്ദം യഥാർത്ഥമാണോ എന്ന് മാത്രം ചോദിക്കരുത്. പകരം ഈ ചോദ്യങ്ങൾ ചോദിക്കുക:
- വേഗത സ്വാഭാവികമായി തോന്നുന്നുണ്ടോ?
- ഇടവേളകൾ ശരിയായ സ്ഥലങ്ങളിലാണോ?
- സംഭാഷണം വ്യക്തമാണോ?
- ഫോർമാറ്റിംഗ് നോയിസ് ഉണ്ടോ?
ഓഡിയോ മോശമായി തോന്നുന്നുണ്ടെങ്കിൽ, എപ്പോഴും വോയിസ് മോഡൽ (voice model) ആയിരിക്കില്ല പ്രശ്നം. പലപ്പോഴും, ടെക്സ്റ്റ് കേൾക്കാൻ പാകത്തിലായിരിക്കില്ല.
ഒരു സാമ്പിൾ-ആദ്യ വർക്ക്ഫ്ലോ (sample-first workflow) തെറ്റുകളുടെ ചിലവ് കുറയ്ക്കുന്നു. ഇത് ഉപയോക്താവിന് സുരക്ഷിതവും സിസ്റ്റത്തിന് കൂടുതൽ കാര്യക്ഷമവുമാണ്.
ഓഡിയോയുടെ ഗുണനിലവാരം ജനറേഷൻ തുടങ്ങുന്നതിന് മുമ്പ് തന്നെ ആരംഭിക്കുന്നു. അത് ഇൻപുട്ടിൽ നിന്നാണ് തുടങ്ങുന്നത്.
Optional learning community: https://t.me/GyaanSetuAi