Continuumの構築:ドラマシリーズ全体を撮影するエージェント

ほとんどのAIツールは、単発の優れたクリップを作ることはできます。しかし、シリーズを作ろうとすると失敗します。ショットごとにキャラクターの見た目が変わってしまうからです。これでは、人間が全フレームを修正しない限り、ストーリーテリングは不可能です。

私はこの問題を解決するためにContinuumを構築しました。これは、縦型マイクロドラマのための自律型AIショーランナーです。脚本、絵コンテ、ビデオ、音楽、そして編集までをこなします。最も重要なのは、第1話から第2話までキャラクターの見た目を一定に保てることです。

縦型マイクロドラマの市場は巨大です。2025年には110億ドルに達しました。中国では、新作の95%がAIを使用しています。

Continuumは、以下の3つのコアシステムを使用して動作します:

  • シリーズ・バイブル(Series Bible):このJSONドキュメントには、キャラクターの容姿、小道具、ロケーションが保存されます。一度キャラクターの容姿が設定されると、エージェントは顔を変更できません。これにより、視覚的なブレ(visual drift)を防ぎます。

  • クリティック・オプティマイザー・ループ(Critic-Optimizer Loop):クリップが生成された後、Qwen-VLが元のキャラクターと比較します。一致度が低い場合、エージェントはプロンプトを書き換えて再試行します。エージェントは自らのミスを修正します。

  • 一貫性スコア(Consistency Score):視覚的な判定器(visual judge)を使用して、同一性のマッチングを数値化します。私の2エピソードのデモでは0.98というスコアを記録しました。探偵の容姿、髪型、タトゥーは、シーンをまたいでも全く同じままでした。

Technical Stack:

  • Scripting and Optimization: Qwen3-max
  • Visual Critic: Qwen-VL
  • Video Generation: Wan text-to-video via Qwen Cloud
  • Backend: FastAPI on Alibaba Cloud

この構築過程で、3つの大きな教訓を得ました:

  1. APIエラーへの対処: ビデオAPIからランダムに503エラーが発生しました。ロジックを書き直すのをやめ、リトライシステムを構築することにしました。これにより、壊れやすいパイプラインを、無人運用(unattended)可能なものへと変えることができました。

  2. コストの管理: ビデオ生成はコストがかかります。予算内に収めるため、解像度を720pに設定し、厳格な支出上限を設けました。

  3. 堀(moat)に集中する: 価値はビデオそのものではありません。ストーリーの一貫性を保つ「メモリ(記憶)」にこそ価値があるのです。

次のステップには、リップシンクの追加や、より優れた検索を実現するためのキャラクターライブラリの構築が含まれます。

Code: https://github.com/calderbuild/continuum

Source: https://dev.to/jasonrobertdestiny/building-continuum-an-agent-that-shoots-a-whole-drama-series-not-one-clip-4g3o

Optional learning community: https://t.me/GyaanSetuAi