Создание Continuum: агент, который снимает целые драматические сериалы
Большинство ИИ-инструментов создают один хороший ролик. Они пасуют, когда вы пытаетесь создать сериал. Персонажи выглядят по-разному в каждом кадре. Это делает сторителлинг невозможным без участия человека, исправляющего каждый кадр.
Я создал Continuum, чтобы решить эту проблему. Это автономный ИИ-шоураннер для вертикальных микро-драм. Он берет на себя сценарий, раскадровку, видео, музыку и монтаж. Самое главное — он сохраняет внешность персонажей неизменной от первой до второй серии.
Рынок вертикальных микро-драм огромен. В 2025 году он достиг 11 млрд долларов. В Китае 95% новых тайтлов используют ИИ.
Continuum работает на основе трех основных систем:
Библия сериала (Series Bible): этот JSON-документ хранит внешность персонажей, реквизит и локации. Как только облик персонажа задан, агент не может изменить лицо. Это предотвращает визуальный дрейф.
Цикл «критик-оптимизатор» (Critic-Optimizer Loop): после генерации клипа Qwen-VL сравнивает его с оригинальным персонажем. Если соответствие низкое, агент переписывает промпт и пробует снова. Агент сам исправляет свои ошибки.
Оценка согласованности (Consistency Score): я использую визуального судью, чтобы получить конкретное числовое значение соответствия идентичности. Мое демо из двух серий получило 0,98. Детектив, его волосы и татуировка остались идентичными во всех сценах.
Технологический стек:
- Написание сценариев и оптимизация: Qwen3-max
- Визуальный критик: Qwen-VL
- Генерация видео: Wan text-to-video через Qwen Cloud
- Бэкенд: FastAPI на Alibaba Cloud
В процессе разработки я извлек три важных урока:
Обработка ошибок API: я сталкивался со случайными ошибками 503 от видео-API. Вместо того чтобы переписывать логику, я начал создавать систему повторных попыток (retry system). Это превратило нестабильный конвейер в полностью автономный.
Контроль расходов: генерация видео стоит дорого. Я использовал разрешение 720p и установил жесткие лимиты расходов, чтобы остаться в рамках бюджета.
Фокус на конкурентном преимуществе (moat): ценность не в видео. Ценность — в памяти, которая обеспечивает связность повествования.
Следующие шаги включают добавление липсинка (lip-syncing) и библиотеки персонажей для еще более эффективного поиска.
Код: https://github.com/calderbuild/continuum
Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi
