Continuum બનાવવું: એક એજન્ટ જે આખી ડ્રામા સિરીઝ શૂટ કરે છે
મોટાભાગના AI ટૂલ્સ એક સારો ક્લિપ બનાવે છે. જ્યારે તમે સિરીઝ બનાવવાનો પ્રયાસ કરો છો ત્યારે તેઓ નિષ્ફળ જાય છે. દરેક શોટમાં પાત્રો અલગ દેખાય છે. આના કારણે દરેક ફ્રેમને માણસ દ્વારા સુધાર્યા વિના વાર્તા કહેવી અશક્ય બની જાય છે.
આ સમસ્યાના ઉકેલ માટે મેં Continuum બનાવ્યું છે. તે વર્ટિકલ માઇક્રો-ડ્રામા માટેનું એક સ્વાયત્ત (autonomous) AI શોરનર છે. તે સ્ક્રિપ્ટ, સ્ટોરીબોર્ડ્સ, વિડિયો, સંગીત અને એડિટિંગ સંભાળે છે. સૌથી મહત્વનું એ છે કે, તે પહેલા એપિસોડથી બીજા એપિસોડ સુધી પાત્રોને એકસરખા રાખે છે.
વર્ટિકલ માઇક્રો-ડ્રામા માર્કેટ ઘણું મોટું છે. તે 2025 માં $11B સુધી પહોંચ્યું છે. ચીનમાં, 95% નવા ટાઇટલ્સ AI નો ઉપયોગ કરે છે.
Continuum ત્રણ મુખ્ય સિસ્ટમ્સનો ઉપયોગ કરીને કામ કરે છે:
એક Series Bible: આ JSON ડોક્યુમેન્ટ પાત્રોનો દેખાવ, પ્રોપ્સ અને લોકેશન સ્ટોર કરે છે. એકવાર પાત્રનો દેખાવ સેટ થઈ જાય પછી, એજન્ટ ચહેરો બદલી શકતો નથી. આ વિઝ્યુઅલ ડ્રિફ્ટ (visual drift) ને અટકાવે છે.
એક Critic-Optimizer Loop: ક્લિપ જનરેટ થયા પછી, Qwen-VL તેની મૂળ પાત્ર સાથે સરખામણી કરે છે. જો મેચ ઓછી હોય, તો એજન્ટ પ્રોમ્પ્ટ ફરીથી લખે છે અને ફરી પ્રયાસ કરે છે. એજન્ટ પોતાની ભૂલો જાતે સુધારે છે.
એક Consistency Score: આઇડેન્ટિટી મેચિંગ માટે વાસ્તવિક નંબર આપવા માટે હું વિઝ્યુઅલ જજનો ઉપયોગ કરું છું. મારા બે-એપિસોડના ડેમોએ 0.98 સ્કોર કર્યો હતો. ડિટેક્ટિવ, તેના વાળ અને તેના ટેટૂ તમામ સીન દરમિયાન એકસરખા રહ્યા.
Technical Stack:
- Scripting and Optimization: Qwen3-max
- Visual Critic: Qwen-VL
- Video Generation: Qwen Cloud દ્વારા Wan text-to-video
- Backend: Alibaba Cloud પર FastAPI
આ નિર્માણ દરમિયાન મેં ત્રણ મોટા પાઠ શીખ્યા:
API ભૂલોને હેન્ડલ કરો: મને વિડિયો API માંથી રેન્ડમ 503 ભૂલોનો સામનો કરવો પડ્યો. મેં મારું લોજિક ફરીથી લખવાનું બંધ કર્યું અને રીટ્રાય (retry) સિસ્ટમ બનાવવાનું શરૂ કર્યું. આનાથી તૂટેલી પાઇપલાઇન એક અનટેન્ડેડ (unattended) પાઇપલાઇનમાં બદલાઈ ગઈ.
તમારા ખર્ચ પર નિયંત્રણ રાખો: વિડિયો જનરેશન મોંઘું છે. બજેટમાં રહેવા માટે મેં 720p રિઝોલ્યુશનનો ઉપયોગ કર્યો અને ખર્ચ માટે કડક મર્યાદા (spending caps) સેટ કરી.
મોટ (moat) પર ધ્યાન કેન્દ્રિત કરો: મૂલ્ય વિડિયોમાં નથી. મૂલ્ય એ મેમરીમાં છે જે વાર્તાને સુસંગત રાખે છે.
આગામી પગલાઓમાં વધુ સારા રિટ્રીવલ માટે લિપ-સિંકિંગ અને કેરેક્ટર લાઇબ્રેરી ઉમેરવાનો સમાવેશ થાય છે.
Code: https://github.com/calderbuild/continuum
Optional learning community: https://t.me/GyaanSetuAi
