Continuum کی تعمیر: ایک ایسا ایجنٹ جو مکمل ڈرامہ سیریز فلماتا ہے

زیادہ تر AI ٹولز ایک اچھا کلپ تو بنا لیتے ہیں، لیکن جب آپ ایک سیریز بنانے کی کوشش کرتے ہیں تو وہ ناکام ہو جاتے ہیں۔ ہر شاٹ میں کردار مختلف نظر آتے ہیں۔ اس وجہ سے انسانی مداخلت کے بغیر، یعنی ہر فریم کو خود درست کیے بغیر، کہانی سنانا ناممکن ہو جاتا ہے۔

میں نے اسی مسئلے کو حل کرنے کے لیے Continuum بنایا ہے۔ یہ ورٹیکل مائیکرو ڈراموں (vertical micro-dramas) کے لیے ایک خود مختار AI شو رنر (showrunner) ہے۔ یہ اسکرپٹ، اسٹوری بورڈ، ویڈیو، موسیقی اور ایڈیٹنگ کو سنبھالتا ہے۔ سب سے اہم بات یہ ہے کہ یہ پہلے ایپی سوڈ سے دوسرے ایپی سوڈ تک کرداروں کی شکل و صورت کو ایک جیسا رکھتا ہے۔

ورٹیکل مائیکرو ڈرامہ مارکیٹ بہت بڑی ہے۔ 2025 میں یہ 11 ارب ڈالر تک پہنچ گئی۔ چین میں، 95% نئے ٹائٹلز AI کا استعمال کرتے ہیں۔

Continuum تین بنیادی نظاموں کے ذریعے کام کرتا ہے:

  • ایک سیریز بائبل (Series Bible): یہ JSON دستاویز کرداروں کی شکل، اشیاء (props) اور مقامات کو محفوظ کرتی ہے۔ ایک بار جب کردار کی شکل طے ہو جائے، تو ایجنٹ چہرہ تبدیل نہیں کر سکتا۔ یہ بصری فرق (visual drift) کو روکتا ہے۔

  • ایک کریٹک-آپٹیمائزر لوپ (Critic-Optimizer Loop): کلپ جنریٹ ہونے کے بعد، Qwen-VL اس کا اصل کردار سے موازنہ کرتا ہے۔ اگر مماثلت کم ہو، تو ایجنٹ پرامپٹ (prompt) کو دوبارہ لکھتا ہے اور دوبارہ کوشش کرتا ہے۔ ایجنٹ اپنی غلطیاں خود ٹھیک کرتا ہے۔

  • ایک تسلسل کا اسکور (Consistency Score): میں شناخت کے ملاپ کے لیے ایک حقیقی نمبر دینے کے لیے ایک بصری جج (visual judge) کا استعمال کرتا ہوں۔ میرے دو ایپی سوڈ کے ڈیمو نے 0.98 اسکور کیا۔ جاسوس، اس کے بال، اور اس کا ٹیٹو تمام مناظر میں بالکل ایک جیسا رہا۔

ٹیکنیکل اسٹیک (Technical Stack):

  • اسکرپٹنگ اور آپٹیمائزیشن: Qwen3-max
  • ویژول کریٹک: Qwen-VL
  • ویڈیو جنریشن: Qwen Cloud کے ذریعے Wan text-to-video
  • بیک اینڈ: Alibaba Cloud پر FastAPI

اس تعمیر کے دوران میں نے تین بڑے اسباق سیکھے:

  1. API کی غلطیوں کو سنبھالنا: مجھے ویڈیو API سے اچانک 503 کی غلطیاں (errors) ملیں۔ میں نے اپنے لاجک کو دوبارہ لکھنا چھوڑ دیا اور ایک ری ٹرائی (retry) سسٹم بنانا شروع کر دیا۔ اس نے ایک ٹوٹے ہوئے پائپ لائن کو ایک خودکار (unattended) پائپ لائن میں بدل دیا۔

  2. اپنے اخراجات کو کنٹرول کریں: ویڈیو جنریشن مہنگی ہے۔ میں نے بجٹ کے اندر رہنے کے لیے 720p ریزولوشن استعمال کیا اور اخراجات کی سخت حد (spending caps) مقرر کی۔

  3. اپنی خاصیت (moat) پر توجہ دیں: اصل اہمیت ویڈیو کی نہیں ہے۔ اصل اہمیت اس یادداشت (memory) کی ہے جو کہانی کو مربوط رکھتی ہے۔

اگلے مراحل میں مزید بہتر ریٹریول (retrieval) کے لیے لپ سنکنگ (lip-syncing) اور ایک کردار لائبریری شامل کرنا شامل ہے۔

Code: https://github.com/calderbuild/continuum

Source: https://dev.to/jasonrobertdestiny/building-continuum-an-agent-that-shoots-a-whole-drama-series-not-one-clip-4g3o

Optional learning community: https://t.me/GyaanSetuAi