בניית Pipeline וידאו עם שני מנחים באמצעות AI

רציתי לעבור מעבר לסרטונים אנכיים קצרים.

תוכן ארוך יותר זקוק לפורמט טוב יותר. קול רובוטי בודד שקורא רשימה הוא משעמם. אנשים מפסיקים לצפות.

בניתי מערכת ליצירת סרטונים באורך 10 דקות עם שני מנחים. הם מדברים, הם לא מסכימים זה עם זה, והם מעבירים נושאים זה לזה באופן טבעי. הקצב הזה גורם לאנשים להמשיך לצפות.

בניתי את זה מאפס כדי שיעבוד בתוך GitHub Actions. זה חייב לרוץ באופן אוטומטי בכל פעם שאני מעדכן קובץ.

כך המערכת עובדת:

• הכל מתחיל בקובץ JSON בודד. • הקובץ הזה מכיל את התסריט, את הדוברים ואת נתוני השקופיות. • אני משתמש ב-edge-tts עבור האודיו. זה בחינם ולא דורש מפתחות API. • אני משתמש ב-Pillow כדי להפוך נתוני JSON לתמונות של שקופיות. • אני משתמש ב-ffmpeg כדי לחבר את האודיו והתמונות לסרטון.

בחירות טכניות מרכזיות:

  • שני קולות: אני מקשר את דובר A לקול אחד ואת דובר B לקול אחר. אני שומר על משפטים מתחת ל-25 מילים. זה גורם ל-AI להישמע אנושי יותר.
  • ללא דפדפנים: אני לא משתמש ב-Playwright או ב-Chrome כדי ליצור שקופיות. זה לוקח יותר מדי זמן בתוך CI pipeline. Pillow הרבה יותר מהיר עבור רינדור תמונות.
  • טיפול חכם בשגיאות: אני בודק את גודל הקובץ של כל קטע אודיו. לפעמים ה-API מחזיר קובץ ריק. הסקריפט שלי תופס את זה לפני שהסרטון נכשל.
  • רינדור מהיר: רינדור של סרטון באורך 10 דקות לוקח כ-5 דקות ב-GitHub Actions. רוב הזמן הזה מוקדש להמתנה ל-audio API.

זרימת העבודה פשוטה:

  1. אני דוחף (push) קובץ JSON לתיקייה ספציפית.
  2. GitHub Actions מפעיל את הרינדור.
  3. המערכת מעלה את הסרטון ל-YouTube באמצעות API.
  4. הקובץ עובר לתיקיית uploaded.

ההגדרה הזו מאפשרת לי להפיק תוכן לימודי ארוך ללא עריכה ידנית. היא הופכת תסריט לסרטון מוכן באופן אוטומטי.

מקור: https://dev.to/morinaga/what-i-learned-building-a-scripted-two-host-video-pipeline-with-edge-tts-and-ffmpeg-41o6

קהילת למידה אופציונלית: https://t.me/GyaanSetuAi