Membangun Continuum: Agen yang Mampu Memproduksi Seluruh Serial Drama
Sebagian besar alat AI hanya mampu membuat satu klip yang bagus. Mereka gagal saat Anda mencoba membuat sebuah serial. Karakter terlihat berbeda di setiap pengambilan gambar. Hal ini membuat penceritaan menjadi mustahil tanpa campur tangan manusia untuk memperbaiki setiap bingkai (frame).
Saya membangun Continuum untuk mengatasi masalah ini. Ini adalah showrunner AI otonom untuk mikro-drama vertikal. Ia menangani naskah, storyboard, video, musik, dan penyuntingan. Yang paling penting, ia menjaga agar karakter tetap terlihat sama dari episode satu ke episode dua.
Pasar mikro-drama vertikal sangatlah besar. Nilainya mencapai $11 miliar pada tahun 2025. Di Tiongkok, 95% judul baru menggunakan AI.
Continuum bekerja menggunakan tiga sistem inti:
Sebuah Series Bible: Dokumen JSON ini menyimpan tampilan karakter, properti, dan lokasi. Begitu tampilan karakter ditetapkan, agen tidak dapat mengubah wajahnya. Hal ini mencegah terjadinya pergeseran visual (visual drift).
Sebuah Critic-Optimizer Loop: Setelah klip dibuat, Qwen-VL membandingkannya dengan karakter asli. Jika kecocokannya rendah, agen akan menulis ulang prompt dan mencoba lagi. Agen tersebut memperbaiki kesalahannya sendiri.
Sebuah Skor Konsistensi: Saya menggunakan juri visual untuk memberikan angka nyata bagi pencocokan identitas. Demo dua episode saya mendapatkan skor 0,98. Detektif tersebut, rambutnya, dan tato di tubuhnya tetap identik di berbagai adegan.
Stack Teknis:
- Penulisan Naskah dan Optimasi: Qwen3-max
- Kritikus Visual: Qwen-VL
- Generasi Video: Wan text-to-video via Qwen Cloud
- Backend: FastAPI di Alibaba Cloud
Saya mempelajari tiga pelajaran besar selama proses pembangunan ini:
Menangani kesalahan API: Saya menghadapi kesalahan 503 acak dari API video. Saya berhenti menulis ulang logika saya dan mulai membangun sistem retry. Hal ini mengubah pipeline yang rusak menjadi pipeline yang dapat berjalan secara otomatis (unattended).
Kontrol biaya Anda: Generasi video itu mahal. Saya menggunakan resolusi 720p dan menetapkan batas pengeluaran yang ketat agar tetap sesuai anggaran.
Fokus pada moat (keunggulan kompetitif): Nilainya bukan pada videonya. Nilainya terletak pada memori yang menjaga cerita tetap koheren.
Langkah selanjutnya melibatkan penambahan lip-syncing dan pustaka karakter untuk retrieval yang lebih baik lagi.
Kode: https://github.com/calderbuild/continuum
Komunitas belajar opsional: https://t.me/GyaanSetuAi
