Creare Continuum: un agente che realizza intere serie drammatiche
La maggior parte degli strumenti di IA crea una singola clip di qualità. Falliscono quando si cerca di creare una serie. I personaggi appaiono diversi in ogni inquadratura. Questo rende impossibile la narrazione senza l'intervento umano per correggere ogni singolo fotogramma.
Ho creato Continuum per risolvere questo problema. È uno showrunner IA autonomo per micro-drama verticali. Gestisce la sceneggiatura, gli storyboard, il video, la musica e il montaggio. La cosa più importante è che mantiene l'aspetto dei personaggi identico dall'episodio uno all'episodio due.
Il mercato dei micro-drama verticali è enorme. Ha raggiunto gli 11 miliardi di dollari nel 2025. In Cina, il 95% dei nuovi titoli utilizza l'IA.
Continuum funziona utilizzando tre sistemi principali:
Una "Series Bible": questo documento JSON memorizza l'aspetto dei personaggi, gli oggetti di scena e le ambientazioni. Una volta stabilito l'aspetto di un personaggio, l'agente non può cambiarne il volto. Ciò evita la deriva visiva.
Un ciclo Critic-Optimizer: dopo la generazione di una clip, Qwen-VL la confronta con il personaggio originale. Se la corrispondenza è bassa, l'agente riscrive il prompt e riprova. L'agente corregge i propri errori.
Un punteggio di coerenza (Consistency Score): utilizzo un giudice visivo per fornire un valore numerico reale per il matching dell'identità. La mia demo di due episodi ha ottenuto un punteggio di 0,98. Il detective, i suoi capelli e il suo tatuaggio sono rimasti identici in tutte le scene.
Technical Stack:
- Scripting e ottimizzazione: Qwen3-max
- Critic visivo: Qwen-VL
- Generazione video: Wan text-to-video tramite Qwen Cloud
- Backend: FastAPI su Alibaba Cloud
Durante lo sviluppo ho imparato tre grandi lezioni:
Gestire gli errori API: ho riscontrato errori 503 casuali dall'API video. Ho smesso di riscrivere la mia logica e ho iniziato a costruire un sistema di retry. Questo ha trasformato una pipeline interrotta in una autonoma.
Controllare i costi: la generazione video è costosa. Ho utilizzato la risoluzione 720p e ho impostato dei limiti di spesa rigidi per rimanere nel budget.
Concentrarsi sul "moat" (vantaggio competitivo): il valore non è il video. Il valore risiede nella memoria che mantiene coerente la storia.
I prossimi passi prevedono l'aggiunta del lip-sync e di una libreria di personaggi per un recupero dei dati ancora migliore.
Code: https://github.com/calderbuild/continuum
Optional learning community: https://t.me/GyaanSetuAi
