𝗗𝗲𝘀𝗶𝗴𝗻𝗶𝗻𝗴 𝗮 𝗦𝗮𝗺𝗽𝗹𝗲 𝗙𝗶𝗿𝘀𝘁 𝗧𝗧𝗦 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲

📅4 hours ago⏱2 min read

תכנון Pipeline של TTS מבוסס דגימה תחילה (Sample-First)

הפיכת משפט קצר לאודיו היא משימה קלה. שולחים טקסט לשירות, בוחרים קול ומקבלים קובץ.

טקסט ארוך הוא בעיה אחרת לגמרי.

כשעוברים ממשפטים למאמרים, ספרים או מדריכים, המערכת חייבת לטפל ביותר מרק טקסט. היא חייבת לטפל במבנה, בקצב וברעשי עיצוב (formatting noise).

למדתי זאת בזמן שבניתי יצירת אודיו בסגנון ספרים קוליים (audiobooks). התייחסות לטקסט ארוך כאל קריאת TTS אחת נכשלת. פסקאות שנראות טוב על המסך נשמעות לעיתים קרובות כבדות מדי כשמקריאים אותן. כותרות נקראות קרוב מדי למשפט הבא. דיאלוגים הופכים לקשים למעקב.

הדרך הטובה ביותר לבנות זאת היא Pipeline מבוסס דגימה תחילה (sample-first).

אל תפיקו אודיו מלא באופן מיידי. במקום זאת, פעלו לפי השלבים הבאים:

ניקוי טקסט הקלט
פיצול הטקסט לבלוקים (blocks) ידידותיים לאודיו
יצירת תצוגה מקדימה קצרה
סקירת הדגימה
יצירת התוכן המלא רק אם הדגימה עובדת טוב

ניקוי הטקסט הוא השלב הראשון והחשוב ביותר. אם משתמשים מדביקים טקסט מ-PDF או מדף אינטרנט, הוא מכיל לעיתים קרובות מספרי עמודים, כותרות חוזרות או שורות שבורות. בן אדם מתעלם מהם בזמן הקריאה, אך מערכת TTS תקריא אותם בקול, מה שפוגע בחוויה. הניקוי חייב להתבצע לפני יצירת האודיו.

לאחר מכן, התמקדו במבנה. לאודיו חסרים רמזים ויזואליים. המאזינים מסתמכים על קצב והפסקות. כדאי לפצל טקסט ארוך לבלוקים. כל בלוק צריך לייצג רעיון אחד או סצנה אחת. זה מקל על ניסיון חוזר של קטעים שנכשלו ועל שמירת תוצאות בזיכרון מטמון (cache).

החלק הקריטי ביותר הוא התצוגה המקדימה.

דגימה קצרה מאפשרת לכם לאמת את החוויה מבלי לבזבז זמן או כסף. אל תסתפקו רק בשאלה אם הקול נשמע אמיתי. שאלו את השאלות הבאות:

האם הקצב מרגיש טבעי?
האם ההפסקות נמצאות במקומות הנכונים?
האם הדיאלוג ברור?
האם יש רעשי עיצוב?

אם האודיו נשמע רע, מודל הקול הוא לא תמיד הבעיה. לעיתים קרובות, הטקסט פשוט לא היה מוכן להאזנה.

תהליך עבודה מבוסס דגימה (sample-first) מפחית את עלות הטעויות. הוא בטוח יותר עבור המשתמש ויעיל יותר עבור המערכת.

איכות האודיו מתחילה עוד לפני שהיצירה מתחילה. היא מתחילה בקלט.

Source: https://dev.to/w_gregorin_f9af40278cc86d/designing-a-sample-first-tts-pipeline-for-long-form-text-3543

Optional learning community: https://t.me/GyaanSetuAi

𝗗𝗲𝘀𝗶𝗴𝗻𝗶𝗻𝗴 𝗮 𝗦𝗮𝗺𝗽𝗹𝗲 𝗙𝗶𝗿𝘀𝘁 𝗧𝗧𝗦 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲

תכנון Pipeline של TTS מבוסס דגימה תחילה (Sample-First)

Continue reading

אימון קול מותג עבור כלי AI

𝗧𝗵𝗶𝘀 𝗜𝘀 𝗔 𝗚𝗨𝗜𝗗𝗘 𝗧𝗢 𝗖𝗛𝗔𝗧𝗚𝗣𝗧 𝗣𝗥𝗢𝗠𝗣𝗧 𝗘𝗡𝗚𝗜𝗡𝗘𝗘𝗥𝗜𝗡𝗚

בניית צוות סוכנים אוטונומי

מבוא ל-Gen AI למתחילים בפייתון

𝗗𝗲𝘀𝗶𝗴𝗻𝗶𝗻𝗴 𝗮 𝗦𝗮𝗺𝗽𝗹𝗲 𝗙𝗶𝗿𝘀𝘁 𝗧𝗧𝗦 𝗣𝗶𝗽𝗲𝗹𝗶𝗻𝗲