Continuum का निर्माण: एक ऐसा एजेंट जो पूरी ड्रामा सीरीज़ बनाता है
अधिकांश AI टूल्स एक अच्छा क्लिप तो बना लेते हैं। लेकिन जब आप एक सीरीज़ बनाने की कोशिश करते हैं, तो वे विफल हो जाते हैं। हर शॉट में पात्र अलग दिखते हैं। इसके कारण हर फ्रेम को इंसान द्वारा ठीक किए बिना कहानी कहना असंभव हो जाता है।
मैंने इसी समस्या को हल करने के लिए Continuum बनाया है। यह वर्टिकल माइक्रो-ड्रामा (vertical micro-dramas) के लिए एक स्वायत्त (autonomous) AI शो रनर है। यह स्क्रिप्ट, स्टोरीबोर्ड, वीडियो, संगीत और एडिटिंग को संभालता है। सबसे महत्वपूर्ण बात यह है कि यह पहले एपिसोड से लेकर दूसरे एपिसोड तक पात्रों के लुक को एक जैसा बनाए रखता है।
वर्टिकल माइक्रो-ड्रामा का बाज़ार बहुत बड़ा है। 2025 में यह $11B तक पहुँच गया। चीन में, 95% नए टाइटल AI का उपयोग करते हैं।
Continuum तीन मुख्य प्रणालियों का उपयोग करके काम करता है:
एक सीरीज़ बाइबिल (Series Bible): यह JSON डॉक्यूमेंट पात्रों के लुक, प्रॉप्स और लोकेशन्स को स्टोर करता है। एक बार पात्र का लुक सेट हो जाने के बाद, एजेंट चेहरा नहीं बदल सकता। यह विज़ुअल ड्रिफ्ट (visual drift) को रोकता है।
एक क्रिटिक-ऑप्टिमाइज़र लूप (Critic-Optimizer Loop): क्लिप जेनरेट होने के बाद, Qwen-VL उसकी तुलना मूल पात्र से करता है। यदि समानता कम है, तो एजेंट प्रॉम्प्ट को फिर से लिखता है और दोबारा प्रयास करता है। एजेंट अपनी गलतियों को खुद सुधारता है।
एक कंसिस्टेंसी स्कोर (Consistency Score): मैं पहचान मिलान (identity matching) के लिए एक वास्तविक संख्या देने हेतु एक विज़ुअल जज का उपयोग करता हूँ। मेरे दो-एपिसोड के डेमो ने 0.98 स्कोर किया। जासूस, उसके बाल और उसका टैटू सभी दृश्यों में बिल्कुल एक जैसे रहे।
Technical Stack:
- स्क्रिप्टिंग और ऑप्टिमाइज़ेशन: Qwen3-max
- विज़ुअल क्रिटिक: Qwen-VL
- वीडियो जनरेशन: Qwen Cloud के माध्यम से Wan text-to-video
- बैकएंड: Alibaba Cloud पर FastAPI
इस निर्माण के दौरान मैंने तीन बड़े सबक सीखे:
API एरर्स को संभालें: मुझे वीडियो API से रैंडम 503 एरर्स का सामना करना पड़ा। मैंने अपने लॉजिक को बार-बार लिखना बंद कर दिया और एक रिट्राय सिस्टम (retry system) बनाना शुरू कर दिया। इसने एक टूटे हुए पाइपलाइन को एक unattended पाइपलाइन में बदल दिया।
अपनी लागत को नियंत्रित करें: वीडियो जनरेशन महंगा है। बजट के भीतर रहने के लिए मैंने 720p रेज़ोल्यूशन का उपयोग किया और खर्च की सख्त सीमाएँ (spending caps) तय कीं।
अपने 'मोट' (moat) पर ध्यान केंद्रित करें: असली वैल्यू वीडियो में नहीं है। असली वैल्यू उस मेमोरी में है जो कहानी को सुसंगत (coherent) बनाए रखती है।
अगले चरणों में और भी बेहतर रिट्रीवल के लिए लिप-सिंकिंग और एक कैरेक्टर लाइब्रेरी जोड़ना शामिल है।
Code: https://github.com/calderbuild/continuum
Optional learning community: https://t.me/GyaanSetuAi
