תכנון Pipeline של TTS מבוסס דגימה תחילה (Sample-First)

הפיכת משפט קצר לאודיו היא משימה קלה. שולחים טקסט לשירות, בוחרים קול ומקבלים קובץ.

טקסט ארוך הוא בעיה אחרת לגמרי.

כשעוברים ממשפטים למאמרים, ספרים או מדריכים, המערכת חייבת לטפל ביותר מרק טקסט. היא חייבת לטפל במבנה, בקצב וברעשי עיצוב (formatting noise).

למדתי זאת בזמן שבניתי יצירת אודיו בסגנון ספרים קוליים (audiobooks). התייחסות לטקסט ארוך כאל קריאת TTS אחת נכשלת. פסקאות שנראות טוב על המסך נשמעות לעיתים קרובות כבדות מדי כשמקריאים אותן. כותרות נקראות קרוב מדי למשפט הבא. דיאלוגים הופכים לקשים למעקב.

הדרך הטובה ביותר לבנות זאת היא Pipeline מבוסס דגימה תחילה (sample-first).

אל תפיקו אודיו מלא באופן מיידי. במקום זאת, פעלו לפי השלבים הבאים:

ניקוי הטקסט הוא השלב הראשון והחשוב ביותר. אם משתמשים מדביקים טקסט מ-PDF או מדף אינטרנט, הוא מכיל לעיתים קרובות מספרי עמודים, כותרות חוזרות או שורות שבורות. בן אדם מתעלם מהם בזמן הקריאה, אך מערכת TTS תקריא אותם בקול, מה שפוגע בחוויה. הניקוי חייב להתבצע לפני יצירת האודיו.

לאחר מכן, התמקדו במבנה. לאודיו חסרים רמזים ויזואליים. המאזינים מסתמכים על קצב והפסקות. כדאי לפצל טקסט ארוך לבלוקים. כל בלוק צריך לייצג רעיון אחד או סצנה אחת. זה מקל על ניסיון חוזר של קטעים שנכשלו ועל שמירת תוצאות בזיכרון מטמון (cache).

החלק הקריטי ביותר הוא התצוגה המקדימה.

דגימה קצרה מאפשרת לכם לאמת את החוויה מבלי לבזבז זמן או כסף. אל תסתפקו רק בשאלה אם הקול נשמע אמיתי. שאלו את השאלות הבאות:

אם האודיו נשמע רע, מודל הקול הוא לא תמיד הבעיה. לעיתים קרובות, הטקסט פשוט לא היה מוכן להאזנה.

תהליך עבודה מבוסס דגימה (sample-first) מפחית את עלות הטעויות. הוא בטוח יותר עבור המשתמש ויעיל יותר עבור המערכת.

איכות האודיו מתחילה עוד לפני שהיצירה מתחילה. היא מתחילה בקלט.

Source: https://dev.to/w_gregorin_f9af40278cc86d/designing-a-sample-first-tts-pipeline-for-long-form-text-3543

Optional learning community: https://t.me/GyaanSetuAi