Continuumの構築:ドラマシリーズ全体を撮影するエージェント
ほとんどのAIツールは、単発の優れたクリップを作ることはできます。しかし、シリーズを作ろうとすると失敗します。ショットごとにキャラクターの見た目が変わってしまうからです。これでは、人間が全フレームを修正しない限り、ストーリーテリングは不可能です。
私はこの問題を解決するためにContinuumを構築しました。これは、縦型マイクロドラマのための自律型AIショーランナーです。脚本、絵コンテ、ビデオ、音楽、そして編集までをこなします。最も重要なのは、第1話から第2話までキャラクターの見た目を一定に保てることです。
縦型マイクロドラマの市場は巨大です。2025年には110億ドルに達しました。中国では、新作の95%がAIを使用しています。
Continuumは、以下の3つのコアシステムを使用して動作します:
シリーズ・バイブル(Series Bible):このJSONドキュメントには、キャラクターの容姿、小道具、ロケーションが保存されます。一度キャラクターの容姿が設定されると、エージェントは顔を変更できません。これにより、視覚的なブレ(visual drift)を防ぎます。
クリティック・オプティマイザー・ループ(Critic-Optimizer Loop):クリップが生成された後、Qwen-VLが元のキャラクターと比較します。一致度が低い場合、エージェントはプロンプトを書き換えて再試行します。エージェントは自らのミスを修正します。
一貫性スコア(Consistency Score):視覚的な判定器(visual judge)を使用して、同一性のマッチングを数値化します。私の2エピソードのデモでは0.98というスコアを記録しました。探偵の容姿、髪型、タトゥーは、シーンをまたいでも全く同じままでした。
Technical Stack:
- Scripting and Optimization: Qwen3-max
- Visual Critic: Qwen-VL
- Video Generation: Wan text-to-video via Qwen Cloud
- Backend: FastAPI on Alibaba Cloud
この構築過程で、3つの大きな教訓を得ました:
APIエラーへの対処: ビデオAPIからランダムに503エラーが発生しました。ロジックを書き直すのをやめ、リトライシステムを構築することにしました。これにより、壊れやすいパイプラインを、無人運用(unattended)可能なものへと変えることができました。
コストの管理: ビデオ生成はコストがかかります。予算内に収めるため、解像度を720pに設定し、厳格な支出上限を設けました。
堀(moat)に集中する: 価値はビデオそのものではありません。ストーリーの一貫性を保つ「メモリ(記憶)」にこそ価値があるのです。
次のステップには、リップシンクの追加や、より優れた検索を実現するためのキャラクターライブラリの構築が含まれます。
Code: https://github.com/calderbuild/continuum
Optional learning community: https://t.me/GyaanSetuAi
