ಸ್ಯಾಂಪಲ್-ಫಸ್ಟ್ (Sample-First) TTS ಪೈಪ್‌ಲೈನ್ ವಿನ್ಯಾಸಗೊಳಿಸುವುದು

ಒಂದು ಸಣ್ಣ ವಾಕ್ಯವನ್ನು ಆಡಿಯೋ ಆಗಿ ಪರಿವರ್ತಿಸುವುದು ಸುಲಭ. ನೀವು ಒಂದು ಸೇವೆಗೆ ಪಠ್ಯವನ್ನು ಕಳುಹಿಸುತ್ತೀರಿ, ಧ್ವನಿಯನ್ನು ಆರಿಸಿಕೊಳ್ಳುತ್ತೀರಿ ಮತ್ತು ಫೈಲ್ ಅನ್ನು ಪಡೆಯುತ್ತೀರಿ.

ದೀರ್ಘ ರೂಪದ ಪಠ್ಯವು (Long-form text) ವಿಭಿನ್ನವಾಗಿರುತ್ತದೆ. ನೀವು ವಾಕ್ಯಗಳಿಂದ ಪುಸ್ತಕಗಳು ಅಥವಾ ದೀರ್ಘ ಲೇಖನಗಳಿಗೆ ಬದಲಾದಾಗ, ವ್ಯವಸ್ಥೆಯು ಹೊಸ ಸವಾಲುಗಳನ್ನು ಎದುರಿಸುತ್ತದೆ. ನೀವು ರಚನೆ (structure), ವೇಗ (pacing) ಮತ್ತು ಅನಗತ್ಯ ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ಅಂಶಗಳನ್ನು (formatting noise) ನಿರ್ವಹಿಸಬೇಕಾಗುತ್ತದೆ.

ಆಡಿಯೋಬುಕ್ ಶೈಲಿಯ ಜನರೇಷನ್ ಅನ್ನು ನಿರ್ಮಿಸುವಾಗ ನಾನು ಇದನ್ನು ಕಲಿತೆ. ಆರಂಭದಲ್ಲಿ ನಾನು ಈ ವರ್ಕ್‌ಫ್ಲೋವನ್ನು (workflow) ಕೇವಲ ಒಂದು ಹಂತವೆಂದು ಭಾವಿಸಿದ್ದೆ. ನಾನು ಪಠ್ಯವನ್ನು ಕಳುಹಿಸುತ್ತಿದ್ದೆ ಮತ್ತು ಆಡಿಯೋ ಸಿಗುತ್ತದೆ ಎಂದು ನಿರೀಕ್ಷಿಸುತ್ತಿದ್ದೆ. ದೀರ್ಘ ವಿಷಯಗಳ ವಿಷಯದಲ್ಲಿ ಇದು ವಿಫಲವಾಯಿತು.

ಪರದೆಯ ಮೇಲೆ ಚೆನ್ನಾಗಿ ಕಾಣುವ ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳು ಮಾತನಾಡಿದಾಗ ಕೇಳಲು ಭಾರವಾಗಿ ಅಥವಾ ಅಸ್ತವ್ಯಸ್ತವಾಗಿ ಕೇಳಿಸಬಹುದು. ಹೆಡಿಂಗ್‌ಗಳು ವಾಕ್ಯಗಳೊಂದಿಗೆ ಬೆರೆತುಹೋಗುತ್ತವೆ. ಸಂಭಾಷಣೆಗಳು ಗೊಂದಲಮಯವಾಗುತ್ತವೆ. ವೆಬ್ ಪಠ್ಯದಲ್ಲಿ ಅಡಗಿರುವ ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ಹೆಚ್ಚಾಗಿ ಕೇಳುವಿಕೆಯ ಹರಿವನ್ನು (flow) ಹಾಳುಮಾಡುತ್ತದೆ.

ಧ್ವನಿ ಮಾದರಿಯು (voice model) ಅಷ್ಟೇನೂ ಏಕೈಕ ಸಮಸ್ಯೆಯಲ್ಲ. ಹೆಚ್ಚಾಗಿ, ಇನ್‌ಪುಟ್ ಪಠ್ಯವು ಆಡಿಯೋಗೆ ಸಿದ್ಧವಾಗಿರುವುದಿಲ್ಲ.

ದೀರ್ಘ ರೂಪದ TTS ಗೆ ಕೇವಲ ಒಂದು ಕರೆಯ ಬದಲಿಗೆ ಒಂದು ಪೈಪ್‌ಲೈನ್ ಅಗತ್ಯವಿದೆ. 'ಸ್ಯಾಂಪಲ್-ಫಸ್ಟ್' (sample-first) ವರ್ಕ್‌ಫ್ಲೋ ಅನ್ನು ಬಳಸಿ.

ಈ ಹಂತಗಳನ್ನು ಅನುಸರಿಸಿ:

ಮೊದಲು ಪಠ್ಯವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಿ. ನೀವು PDF ಅಥವಾ ವೆಬ್‌ಸೈಟ್‌ನಿಂದ ವಿಷಯವನ್ನು ಪೇಸ್ಟ್ ಮಾಡಿದರೆ, ಅದರಲ್ಲಿ ಅನಗತ್ಯ ಅಂಶಗಳು (noise) ಇರುತ್ತವೆ. ಪುಟ ಸಂಖ್ಯೆಗಳು, ಪುನರಾವರ್ತಿತ ಹೆಡಿಂಗ್‌ಗಳು ಮತ್ತು ಮೆನು ಐಟಂಗಳು ಕೇಳುವ ಅನುಭವವನ್ನು ಹಾಳುಮಾಡುತ್ತವೆ. ಆಡಿಯೋ ತಯಾರಿಸುವ ಮೊದಲು ಈ ಸ್ವಚ್ಛಗೊಳಿಸುವಿಕೆ ನಡೆಯಲೇಬೇಕು. ಒಮ್ಮೆ ಆಡಿಯೋ ಸೃಷ್ಟಿಯಾದ ನಂತರ, ಪಠ್ಯದ ತಪ್ಪುಗಳನ್ನು ಸರಿಪಡಿಸುವುದು ದುಬಾರಿ ಮತ್ತು ನಿಧಾನವಾಗುತ್ತದೆ.

ನಂತರ, ರಚನೆಯನ್ನು (structure) ಸರಿಪಡಿಸಿ. ಜನರು ಕೇಳುವ ರೀತಿಯಿಗಿಂತ ಓದುವ ರೀತಿ ಭಿನ್ನವಾಗಿರುತ್ತದೆ. ಓದುಗರು ಬೇಕಾದಲ್ಲಿ ಸ್ಕ್ಯಾನ್ ಮಾಡಬಹುದು ಅಥವಾ ಮರುಓದಬಹುದು. ಆದರೆ ಕೇಳುಗರು ವೇಗ (pacing) ಮತ್ತು ವಿರಾಮಗಳ (pauses) ಮೇಲೆ ಅವಲಂಬಿತರಾಗಿರುತ್ತಾರೆ.

ನಿಮ್ಮ ಪಠ್ಯವನ್ನು ಬ್ಲಾಕ್‌ಗಳಾಗಿ ವಿಂಗಡಿಸಿ. ಒಂದು ಬ್ಲಾಕ್ ಒಂದು 'ಕೇಳುವ ಘಟಕ'ವನ್ನು (listening unit) ಪ್ರತಿನಿಧಿಸಬೇಕು. ನಾನ್-ಫಿಕ್ಷನ್ (nonfiction) ವಿಷಯಗಳಿಗೆ ಇದು ಒಂದು ವಿಚಾರವಾಗಿದ್ದರೆ, ಫಿಕ್ಷನ್ (fiction) ವಿಷಯಗಳಿಗೆ ಇದು ಒಂದು ದೃಶ್ಯದ ಭಾಗವಾಗಲಿ (scene beat).

ಬ್ಲಾಕ್ ಆಧಾರಿತ ಜನರೇಷನ್ ಎಂಜಿನಿಯರ್‌ಗಳಿಗೂ ಸಹಕಾರಿಯಾಗಿದೆ. ಇದು ವಿಫಲವಾದ ವಿಭಾಗಗಳನ್ನು ಮತ್ತೆ ಪ್ರಯತ್ನಿಸಲು, ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು ಕ್ಯಾಶ್ (cache) ಮಾಡಲು ಮತ್ತು ವಿವಿಧ ಭಾಗಗಳನ್ನು ಸುಲಭವಾಗಿ ಜೋಡಿಸಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ.

ಅತ್ಯಂತ ಪ್ರಮುಖ ಹಂತವೆಂದರೆ ಪ್ರಿವಿವ್ (preview). ಮೊದಲು ಪೂರ್ಣ ಆಡಿಯೋವನ್ನು ತಯಾರಿಸಬೇಡಿ. ಒಂದು ಸಣ್ಣ ಸ್ಯಾಂಪಲ್ ಅನುಭವವನ್ನು ದೃಢೀಕರಿಸುತ್ತದೆ. ಇದು ಕೇವಲ ಪಠ್ಯದಿಂದ ಉತ್ತರಿಸಲಾಗದ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ನೀಡುತ್ತದೆ:

ಒಂದು ವೇಳೆ ಸಣ್ಣ ಸ್ಯಾಂಪಲ್ ಕೇಳಲು ಸರಿಯಿಲ್ಲದಿದ್ದರೆ, ಕೇವಲ ಧ್ವನಿಯನ್ನು ಬದಲಾಯಿಸಬೇಡಿ. ಮೂಲ ಪಠ್ಯವನ್ನು ಸರಿಪಡಿಸಿ. ಸ್ಯಾಂಪಲ್‌ನಲ್ಲಿ ತಪ್ಪಾಗಿ ಉಚ್ಚರಿಸಲಾದ ಒಂದು ಹೆಸರನ್ನು ತೆಗೆದುಹಾಕುವುದರಿಂದ, ಪೂರ್ಣ ಪುಸ್ತಕದಲ್ಲಿ ಅದನ್ನು ಡಜನ್‌ಗಟ್ಟಲೆ ಬಾರಿ ಸರಿಪಡಿಸುವುದರಿಂದ ನೀವು ತಪ್ಪಿಸಿಕೊಳ್ಳಬಹುದು.

ಸ್ಯಾಂಪಲ್-ಫಸ್ಟ್ ವರ್ಕ್‌ಫ್ಲೋ ತಪ್ಪುಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಮತ್ತು ವೆಚ್ಚವನ್ನು ಇಳಿಸುತ್ತದೆ. ಇದು ಬಳಕೆದಾರರಿಗೆ ಸುರಕ್ಷಿತವಾದ ಮತ್ತು ವ್ಯವಸ್ಥೆಗೆ ಸುಲಭವಾದ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಮಾಡುತ್ತದೆ.

ನಿಮ್ಮ ಆಡಿಯೋದ ಗುಣಮಟ್ಟವು ಉತ್ಪಾದನೆ ಆರಂಭವಾಗುವ ಮೊದಲೇ ನಿರ್ಧರಿಸಲ್ಪಡುತ್ತದೆ. ಇದು ಇನ್‌ಪುಟ್‌ನಿಂದಲೇ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ.

ಮೂಲ: https://dev.to/w_gregorin_f9af40278cc86d/designing-a-sample-first-tts-pipeline-for-long-form-text-3543