ಸ್ಯಾಂಪಲ್-ಫಸ್ಟ್ (Sample-First) TTS ಪೈಪ್‌ಲೈನ್ ವಿನ್ಯಾಸಗೊಳಿಸುವುದು

ಒಂದು ಸಣ್ಣ ವಾಕ್ಯವನ್ನು ಆಡಿಯೋ ಆಗಿ ಪರಿವರ್ತಿಸುವುದು ಸುಲಭ. ನೀವು ಒಂದು ಸೇವೆಗೆ ಪಠ್ಯವನ್ನು ಕಳುಹಿಸುತ್ತೀರಿ, ಧ್ವನಿಯನ್ನು ಆರಿಸುತ್ತೀರಿ ಮತ್ತು ಫೈಲ್ ಅನ್ನು ಪಡೆಯುತ್ತೀರಿ.

ದೀರ್ಘ ರೂಪದ ಪಠ್ಯವು (Long-form text) ಒಂದು ವಿಭಿನ್ನ ಸಮಸ್ಯೆಯಾಗಿದೆ.

ನೀವು ವಾಕ್ಯಗಳಿಂದ ಲೇಖನಗಳು, ಪುಸ್ತಕಗಳು ಅಥವಾ ಟ್ಯುಟೋರಿಯಲ್‌ಗಳಿಗೆ ಬದಲಾದಾಗ, ವ್ಯವಸ್ಥೆಯು ಕೇವಲ ಪಠ್ಯವನ್ನು ಮಾತ್ರವಲ್ಲದೆ ಹೆಚ್ಚಿನದನ್ನು ನಿರ್ವಹಿಸಬೇಕಾಗುತ್ತದೆ. ಅದು ರಚನೆ (structure), ವೇಗ (pacing) ಮತ್ತು ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ಶಬ್ದಗಳನ್ನು (formatting noise) ನಿರ್ವಹಿಸಬೇಕು.

ಆಡಿಯೋಬುಕ್ ಶೈಲಿಯ ಜನರೇಷನ್ ಅನ್ನು ನಿರ್ಮಿಸುವಾಗ ನಾನು ಇದನ್ನು ಕಲಿತೆ. ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಒಂದೇ TTS ಕರೆಯಂತೆ ಪರಿಗಣಿಸುವುದು ವಿಫಲವಾಗುತ್ತದೆ. ಪರದೆಯ ಮೇಲೆ ಚೆನ್ನಾಗಿ ಕಾಣುವ ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳು ಮಾತನಾಡಿದಾಗ ಕೇಳಲು ಭಾರವಾಗಿ ಅಥವಾ ಅಸಹಜವಾಗಿ ಕೇಳಿಸಬಹುದು. ಹೆಡಿಂಗ್‌ಗಳನ್ನು ಮುಂದಿನ ವಾಕ್ಯಕ್ಕೆ ತುಂಬಾ ಹತ್ತಿರವಾಗಿ ಓದಲಾಗುತ್ತದೆ. ಸಂಭಾಷಣೆಗಳನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಕಷ್ಟವಾಗುತ್ತದೆ.

ಇದನ್ನು ನಿರ್ಮಿಸಲು ಅತ್ಯುತ್ತಮ ಮಾರ್ಗವೆಂದರೆ ಸ್ಯಾಂಪಲ್-ಫಸ್ಟ್ (sample-first) ಪೈಪ್‌ಲೈನ್.

ತಕ್ಷಣವೇ ಪೂರ್ಣ ಆಡಿಯೋವನ್ನು ಜನರೇಟ್ ಮಾಡಬೇಡಿ. ಬದಲಾಗಿ ಈ ಹಂತಗಳನ್ನು ಅನುಸರಿಸಿ:

ಪಠ್ಯದ ಸ್ವಚ್ಛಗೊಳಿಸುವಿಕೆ (Text cleanup) ಮೊದಲ ಮತ್ತು ಅತ್ಯಂತ ಪ್ರಮುಖ ಹಂತವಾಗಿದೆ. ಬಳಕೆದಾರರು PDF ಅಥವಾ ವೆಬ್ ಪುಟದಿಂದ ಪಠ್ಯವನ್ನು ಪೇಸ್ಟ್ ಮಾಡಿದರೆ, ಅದರಲ್ಲಿ ಸಾಮಾನ್ಯವಾಗಿ ಪುಟ ಸಂಖ್ಯೆಗಳು, ಪುನರಾವರ್ತಿತ ಹೆಡರ್‌ಗಳು ಅಥವಾ ತುಂಡರಿಸಿದ ಸಾಲುಗಳು ಇರುತ್ತವೆ. ಮನುಷ್ಯರು ಓದುವಾಗ ಇವುಗಳನ್ನು ನಿರ್ಲಕ್ಷಿಸುತ್ತಾರೆ. ಆದರೆ TTS ವ್ಯವಸ್ಥೆಯು ಇವುಗಳನ್ನು ಜೋರಾಗಿ ಓದುತ್ತದೆ, ಇದು ಅನುಭವವನ್ನು ಹಾಳುಮಾಡುತ್ತದೆ. ನೀವು ಆಡಿಯೋವನ್ನು ಜನರೇಟ್ ಮಾಡುವ ಮೊದಲು ಸ್ವಚ್ಛಗೊಳಿಸುವಿಕೆ ನಡೆಯಲೇಬೇಕು.

ನಂತರ, ರಚನೆಯ ಮೇಲೆ ಗಮನಹರಿಸಿ. ಆಡಿಯೋದಲ್ಲಿ ದೃಶ್ಯ ಸೂಚನೆಗಳ ಕೊರತೆಯಿರುತ್ತದೆ. ಕೇಳುಗರು ವೇಗ ಮತ್ತು ವಿರಾಮಗಳ ಮೇಲೆ ಅವಲಂಬಿತರಾಗಿರುತ್ತಾರೆ. ನೀವು ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಬ್ಲಾಕ್‌ಗಳಾಗಿ ವಿಭಜಿಸಬೇಕು. ಒಂದು ಬ್ಲಾಕ್ ಒಂದು ಕಲ್ಪನೆ ಅಥವಾ ಒಂದು ದೃಶ್ಯವನ್ನು ಪ್ರತಿನಿಧಿಸಬೇಕು. ಇದು ವಿಫಲವಾದ ವಿಭಾಗಗಳನ್ನು ಮತ್ತೆ ಪ್ರಯತ್ನಿಸಲು ಮತ್ತು ಫಲಿತಾಂಶಗಳನ್ನು ಕ್ಯಾಶ್ (cache) ಮಾಡಲು ಸುಲಭವಾಗಿಸುತ್ತದೆ.

ಅತ್ಯಂತ ನಿರ್ಣಾಯಕ ಭಾಗವೆಂದರೆ ಪ್ರಿವ್ಯೂ (preview).

ಒಂದು ಸಣ್ಣ ಸ್ಯಾಂಪಲ್ ಸಮಯ ಅಥವಾ ಹಣವನ್ನು ವ್ಯರ್ಥ ಮಾಡದೆ ಅನುಭವವನ್ನು ಪರಿಶೀಲಿಸಲು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ. ಧ್ವನಿ ನೈಜವಾಗಿ ಕೇಳಿಸುತ್ತದೆಯೇ ಎಂದು ಮಾತ್ರ ಕೇಳಬೇಡಿ. ಈ ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳಿ:

ಆಡಿಯೋ ಕೇಳಲು ಕೆಟ್ಟದಾಗಿದ್ದರೆ, ಯಾವಾಗಲೂ ಧ್ವನಿ ಮಾದರಿಯೇ (voice model) ಸಮಸ್ಯೆಯಲ್ಲ. ಹೆಚ್ಚಾಗಿ, ಪಠ್ಯವು ಕೇಳಲು ಸಿದ್ಧವಾಗಿರುವುದಿಲ್ಲ.

ಸ್ಯಾಂಪಲ್-ಫಸ್ಟ್ ವರ್ಕ್‌ಫ್ಲೋ ತಪ್ಪುಗಳ ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ. ಇದು ಬಳಕೆದಾರರಿಗೆ ಸುರಕ್ಷಿತ ಮತ್ತು ವ್ಯವಸ್ಥೆಗೆ ಹೆಚ್ಚು ದಕ್ಷತೆಯನ್ನು ನೀಡುತ್ತದೆ.

ಆಡಿಯೋದ ಗುಣಮಟ್ಟವು ಜನರೇಷನ್ ಪ್ರಾರಂಭವಾಗುವ ಮೊದಲೇ ಶುರುವಾಗುತ್ತದೆ. ಇದು ಇನ್‌ಪುಟ್‌ನಿಂದ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ.

Source: https://dev.to/w_gregorin_f9af40278cc86d/designing-a-sample-first-tts-pipeline-for-long-form-text-3543

Optional learning community: https://t.me/GyaanSetuAi