Создание видеоконвейера с двумя ведущими с помощью ИИ
Я хотел выйти за рамки коротких вертикальных видео.
Длинный контент требует лучшего формата. Один роботизированный голос, зачитывающий список, — это скучно. Люди перестают смотреть.
Я создал систему для создания 10-минутных видео с двумя ведущими. Они общаются, спорят и естественно передают друг другу темы. Такой ритм удерживает внимание зрителей.
Я разработал это с нуля для работы внутри GitHub Actions. Система должна запускаться автоматически каждый раз, когда я обновляю файл.
Вот как работает эта система:
• Все начинается с одного JSON-файла. • Этот файл содержит сценарий, информацию о спикерах и данные для слайдов. • Для аудио я использую edge-tts. Это бесплатно и не требует API-ключей. • Я использую Pillow, чтобы превращать данные из JSON в изображения слайдов. • Я использую ffmpeg, чтобы склеить аудио и изображения в видео.
Ключевые технические решения:
- Два голоса: я назначаю Спикеру А один голос, а Спикеру Б — другой. Я стараюсь делать предложения короче 25 слов. Это делает звучание ИИ более человечным.
- Без браузеров: я не использую Playwright или Chrome для создания слайдов. В CI-конвейере это занимает слишком много времени. Pillow гораздо быстрее справляется с рендерингом изображений.
- Умная обработка ошибок: я проверяю размер каждого аудиоклипа. Иногда API возвращает пустой файл. Мой скрипт отлавливает это до того, как произойдет сбой при создании видео.
- Быстрый рендеринг: рендеринг 10-минутного видео в GitHub Actions занимает около 5 минут. Большая часть этого времени уходит на ожидание ответа от аудио-API.
Рабочий процесс прост:
- Я загружаю JSON-файл в определенную папку.
- GitHub Actions запускает рендеринг.
- Система загружает видео на YouTube через API.
- Файл перемещается в папку загруженных файлов.
Такая настройка позволяет мне создавать длинный образовательный контент без ручного монтажа. Она автоматически превращает сценарий в готовое видео.
Дополнительное сообщество для обучения: https://t.me/GyaanSetuAi
