Continuum का निर्माण: एक ऐसा एजेंट जो पूरी ड्रामा सीरीज़ बनाता है

अधिकांश AI टूल्स एक अच्छा क्लिप तो बना लेते हैं। लेकिन जब आप एक सीरीज़ बनाने की कोशिश करते हैं, तो वे विफल हो जाते हैं। हर शॉट में पात्र अलग दिखते हैं। इसके कारण हर फ्रेम को इंसान द्वारा ठीक किए बिना कहानी कहना असंभव हो जाता है।

मैंने इसी समस्या को हल करने के लिए Continuum बनाया है। यह वर्टिकल माइक्रो-ड्रामा (vertical micro-dramas) के लिए एक स्वायत्त (autonomous) AI शो रनर है। यह स्क्रिप्ट, स्टोरीबोर्ड, वीडियो, संगीत और एडिटिंग को संभालता है। सबसे महत्वपूर्ण बात यह है कि यह पहले एपिसोड से लेकर दूसरे एपिसोड तक पात्रों के लुक को एक जैसा बनाए रखता है।

वर्टिकल माइक्रो-ड्रामा का बाज़ार बहुत बड़ा है। 2025 में यह $11B तक पहुँच गया। चीन में, 95% नए टाइटल AI का उपयोग करते हैं।

Continuum तीन मुख्य प्रणालियों का उपयोग करके काम करता है:

  • एक सीरीज़ बाइबिल (Series Bible): यह JSON डॉक्यूमेंट पात्रों के लुक, प्रॉप्स और लोकेशन्स को स्टोर करता है। एक बार पात्र का लुक सेट हो जाने के बाद, एजेंट चेहरा नहीं बदल सकता। यह विज़ुअल ड्रिफ्ट (visual drift) को रोकता है।

  • एक क्रिटिक-ऑप्टिमाइज़र लूप (Critic-Optimizer Loop): क्लिप जेनरेट होने के बाद, Qwen-VL उसकी तुलना मूल पात्र से करता है। यदि समानता कम है, तो एजेंट प्रॉम्प्ट को फिर से लिखता है और दोबारा प्रयास करता है। एजेंट अपनी गलतियों को खुद सुधारता है।

  • एक कंसिस्टेंसी स्कोर (Consistency Score): मैं पहचान मिलान (identity matching) के लिए एक वास्तविक संख्या देने हेतु एक विज़ुअल जज का उपयोग करता हूँ। मेरे दो-एपिसोड के डेमो ने 0.98 स्कोर किया। जासूस, उसके बाल और उसका टैटू सभी दृश्यों में बिल्कुल एक जैसे रहे।

Technical Stack:

  • स्क्रिप्टिंग और ऑप्टिमाइज़ेशन: Qwen3-max
  • विज़ुअल क्रिटिक: Qwen-VL
  • वीडियो जनरेशन: Qwen Cloud के माध्यम से Wan text-to-video
  • बैकएंड: Alibaba Cloud पर FastAPI

इस निर्माण के दौरान मैंने तीन बड़े सबक सीखे:

  1. API एरर्स को संभालें: मुझे वीडियो API से रैंडम 503 एरर्स का सामना करना पड़ा। मैंने अपने लॉजिक को बार-बार लिखना बंद कर दिया और एक रिट्राय सिस्टम (retry system) बनाना शुरू कर दिया। इसने एक टूटे हुए पाइपलाइन को एक unattended पाइपलाइन में बदल दिया।

  2. अपनी लागत को नियंत्रित करें: वीडियो जनरेशन महंगा है। बजट के भीतर रहने के लिए मैंने 720p रेज़ोल्यूशन का उपयोग किया और खर्च की सख्त सीमाएँ (spending caps) तय कीं।

  3. अपने 'मोट' (moat) पर ध्यान केंद्रित करें: असली वैल्यू वीडियो में नहीं है। असली वैल्यू उस मेमोरी में है जो कहानी को सुसंगत (coherent) बनाए रखती है।

अगले चरणों में और भी बेहतर रिट्रीवल के लिए लिप-सिंकिंग और एक कैरेक्टर लाइब्रेरी जोड़ना शामिल है।

Code: https://github.com/calderbuild/continuum

Source: https://dev.to/jasonrobertdestiny/building-continuum-an-agent-that-shoots-a-whole-drama-series-not-one-clip-4g3o

Optional learning community: https://t.me/GyaanSetuAi