Continuum నిర్మాణం: పూర్తి డ్రామా సిరీస్‌లను చిత్రీకరించే ఒక ఏజెంట్

చాలా AI సాధనాలు ఒక మంచి క్లిప్‌ను మాత్రమే తయారు చేయగలవు. మీరు ఒక సిరీస్‌ను రూపొందించడానికి ప్రయత్నించినప్పుడు అవి విఫలమవుతాయి. ప్రతి షాట్‌లో పాత్రలు వేరువేరుగా కనిపిస్తాయి. దీనివల్ల ప్రతి ఫ్రేమ్‌ను మనిషి సరిదిద్దకుండా కథను చెప్పడం అసాధ్యం అవుతుంది.

దీనిని పరిష్కరించడానికి నేను Continuumని రూపొందించాను. ఇది వర్టికల్ మైక్రో-డ్రామాల కోసం ఒక స్వయంప్రతిపత్తి కలిగిన (autonomous) AI షోరన్నర్. ఇది స్క్రిప్ట్, స్టోరీబోర్డ్‌లు, వీడియో, సంగీతం మరియు ఎడిటింగ్‌ను నిర్వహిస్తుంది. అన్నింటికంటే ముఖ్యంగా, ఇది మొదటి ఎపిసోడ్ నుండి రెండవ ఎపిసోడ్ వరకు పాత్రల రూపాన్ని ఒకేలా ఉంచుతుంది.

వర్టికల్ మైక్రో-డ్రామా మార్కెట్ చాలా పెద్దది. ఇది 2025లో $11B కి చేరుకుంది. చైనాలో, 95% కొత్త టైటిల్స్ AIని ఉపయోగిస్తున్నాయి.

Continuum మూడు ప్రధాన వ్యవస్థల ద్వారా పనిచేస్తుంది:

  • A Series Bible: ఈ JSON డాక్యుమెంట్ పాత్రల రూపాలు, ప్రాప్స్ (props) మరియు ప్రదేశాలను నిల్వ చేస్తుంది. ఒకసారి పాత్ర రూపం నిర్ణయించబడిన తర్వాత, ఏజెంట్ ముఖాన్ని మార్చలేదు. ఇది విజువల్ డ్రిఫ్ట్‌ను (visual drift) నివారిస్తుంది.

  • A Critic-Optimizer Loop: ఒక క్లిప్ జనరేట్ అయిన తర్వాత, Qwen-VL దానిని అసలు పాత్రతో పోల్చి చూస్తుంది. ఒకవేళ పోలిక తక్కువగా ఉంటే, ఏజెంట్ ప్రాంప్ట్‌ను తిరిగి రాసి మళ్ళీ ప్రయత్నిస్తుంది. ఏజెంట్ తన తప్పులను తానే సరిదిద్దుకుంటుంది.

  • A Consistency Score: ఐడెంటిటీ మ్యాచింగ్ కోసం ఒక వాస్తవ సంఖ్యను ఇవ్వడానికి నేను విజువల్ జడ్జిని ఉపయోగిస్తాను. నా రెండు ఎపిసోడ్‌ల డెమో 0.98 స్కోరు సాధించింది. డిటెక్టివ్, అతని జుట్టు మరియు అతని టాటూ అన్ని సీన్లలో ఒకేలా ఉన్నాయి.

Technical Stack:

  • Scripting and Optimization: Qwen3-max
  • Visual Critic: Qwen-VL
  • Video Generation: Qwen Cloud ద్వారా Wan text-to-video
  • Backend: Alibaba Cloud పై FastAPI

ఈ నిర్మాణ సమయంలో నేను మూడు ముఖ్యమైన పాఠాలు నేర్చుకున్నాను:

  1. Handle API errors: వీడియో API నుండి నాకు అప్పుడప్పుడు 503 ఎర్రర్స్ ఎదురయ్యాయి. నేను నా లాజిక్‌ను మళ్ళీ రాయడం మానేసి, ఒక రీట్రై సిస్టమ్‌ను (retry system) నిర్మించడం ప్రారంభించాను. ఇది విఫలమయ్యే పైప్‌లైన్‌ను స్వయంచాలక (unattended) పైప్‌లైన్‌గా మార్చింది.

  2. Control your costs: వీడియో జనరేషన్ ఖర్చుతో కూడుకున్నది. బడ్జెట్‌లో ఉండటానికి నేను 720p రిజల్యూషన్‌ను ఉపయోగించాను మరియు ఖర్చు పరిమితులను (spending caps) నిర్ణయించాను.

  3. Focus on the moat: విలువ వీడియోలో లేదు. కథను పొంతనగా (coherent) ఉంచే మెమరీలోనే అసలైన విలువ ఉంది.

తదుపరి దశల్లో మరింత మెరుగైన రిట్రీవల్ కోసం లిప్-సింకింగ్ మరియు క్యారెక్టర్ లైబ్రరీని జోడించడం ఉంటుంది.

Code: https://github.com/calderbuild/continuum

Source: https://dev.to/jasonrobertdestiny/building-continuum-an-agent-that-shoots-a-whole-drama-series-not-one-clip-4g3o

Optional learning community: https://t.me/GyaanSetuAi