Создание Continuum: агент, который снимает целые драматические сериалы

Большинство ИИ-инструментов создают один хороший ролик. Они пасуют, когда вы пытаетесь создать сериал. Персонажи выглядят по-разному в каждом кадре. Это делает сторителлинг невозможным без участия человека, исправляющего каждый кадр.

Я создал Continuum, чтобы решить эту проблему. Это автономный ИИ-шоураннер для вертикальных микро-драм. Он берет на себя сценарий, раскадровку, видео, музыку и монтаж. Самое главное — он сохраняет внешность персонажей неизменной от первой до второй серии.

Рынок вертикальных микро-драм огромен. В 2025 году он достиг 11 млрд долларов. В Китае 95% новых тайтлов используют ИИ.

Continuum работает на основе трех основных систем:

  • Библия сериала (Series Bible): этот JSON-документ хранит внешность персонажей, реквизит и локации. Как только облик персонажа задан, агент не может изменить лицо. Это предотвращает визуальный дрейф.

  • Цикл «критик-оптимизатор» (Critic-Optimizer Loop): после генерации клипа Qwen-VL сравнивает его с оригинальным персонажем. Если соответствие низкое, агент переписывает промпт и пробует снова. Агент сам исправляет свои ошибки.

  • Оценка согласованности (Consistency Score): я использую визуального судью, чтобы получить конкретное числовое значение соответствия идентичности. Мое демо из двух серий получило 0,98. Детектив, его волосы и татуировка остались идентичными во всех сценах.

Технологический стек:

  • Написание сценариев и оптимизация: Qwen3-max
  • Визуальный критик: Qwen-VL
  • Генерация видео: Wan text-to-video через Qwen Cloud
  • Бэкенд: FastAPI на Alibaba Cloud

В процессе разработки я извлек три важных урока:

  1. Обработка ошибок API: я сталкивался со случайными ошибками 503 от видео-API. Вместо того чтобы переписывать логику, я начал создавать систему повторных попыток (retry system). Это превратило нестабильный конвейер в полностью автономный.

  2. Контроль расходов: генерация видео стоит дорого. Я использовал разрешение 720p и установил жесткие лимиты расходов, чтобы остаться в рамках бюджета.

  3. Фокус на конкурентном преимуществе (moat): ценность не в видео. Ценность — в памяти, которая обеспечивает связность повествования.

Следующие шаги включают добавление липсинка (lip-syncing) и библиотеки персонажей для еще более эффективного поиска.

Код: https://github.com/calderbuild/continuum

Источник: https://dev.to/jasonrobertdestiny/building-continuum-an-agent-that-shoots-a-whole-drama-series-not-one-clip-4g3o

Дополнительное обучающее сообщество: https://t.me/GyaanSetuAi