ساخت Continuum: عاملی که کل یک سریال درام را می‌سازد

بیشتر ابزارهای هوش مصنوعی فقط یک کلیپ خوب می‌سازند. وقتی سعی می‌کنید یک سریال بسازید، شکست می‌خورند. ظاهر شخصیت‌ها در هر نما متفاوت است. این موضوع باعث می‌شود بدون دخالت انسان برای اصلاح تک‌تک فریم‌ها، داستان‌سرایی غیرممکن شود.

من Continuum را برای حل این مشکل ساختم. این یک مدیر تولید (showrunner) خودکار مبتنی بر هوش مصنوعی برای ریز-درام‌های عمودی (vertical micro-dramas) است. این سیستم فیلم‌نامه، استوری‌بورد، ویدیو، موسیقی و تدوین را مدیریت می‌کند. از همه مهم‌تر، ظاهر شخصیت‌ها را از قسمت اول تا قسمت دوم یکسان نگه می‌دارد.

بازار ریز-درام‌های عمودی بسیار بزرگ است. ارزش این بازار در سال ۲۰۲۵ به ۱۱ میلیارد دلار رسید. در چین، ۹۵٪ از آثار جدید از هوش مصنوعی استفاده می‌کنند.

Continuum با استفاده از سه سیستم اصلی کار می‌کند:

  • کتاب مقدس سریال (Series Bible): این سند JSON، ظاهر شخصیت‌ها، اشیاء (props) و مکان‌ها را ذخیره می‌کند. وقتی ظاهر یک شخصیت تعیین شد، عامل (agent) نمی‌تواند چهره را تغییر دهد. این کار از تغییرات ناخواسته بصری (visual drift) جلوگیری می‌کند.

  • حلقه منتقد-بهینه‌ساز (Critic-Optimizer Loop): پس از تولید یک کلیپ، Qwen-VL آن را با شخصیت اصلی مقایسه می‌کند. اگر میزان تطابق کم باشد، عامل دستور (prompt) را بازنویسی کرده و دوباره تلاش می‌کند. عامل اشتباهات خود را اصلاح می‌کند.

  • امتیاز ثبات (Consistency Score): من از یک داور بصری استفاده می‌کنم تا یک عدد واقعی برای تطابق هویت ارائه دهد. دموی دو قسمتی من امتیاز ۰.۹۸ را کسب کرد. کارآگاه، موهای او و خالکوبی‌اش در تمام صحنه‌ها کاملاً یکسان باقی ماندند.

پشته فنی (Technical Stack):

  • اسکریپت‌نویسی و بهینه‌سازی: Qwen3-max
  • منتقد بصری: Qwen-VL
  • تولید ویدیو: Wan text-to-video از طریق Qwen Cloud
  • بک‌اند: FastAPI روی Alibaba Cloud

من در طول این ساخت، سه درس بزرگ آموختم:

۱. مدیریت خطاهای API: من با خطاهای تصادفی ۵۰۳ از سمت API ویدیو مواجه شدم. به جای بازنویسی منطق برنامه‌ام، شروع به ساخت یک سیستم تلاش مجدد (retry system) کردم. این کار یک خط لوله (pipeline) خراب را به یک خط لوله خودکار و بدون نیاز به نظارت تبدیل کرد.

۲. کنترل هزینه‌ها: تولید ویدیو گران است. من از رزولوشن 720p استفاده کردم و سقف‌های هزینه‌ای مشخصی تعیین کردم تا در محدوده بودجه باقی بمانم.

۳. تمرکز بر مزیت رقابتی (moat): ارزش اصلی در ویدیو نیست؛ ارزش در حافظه‌ای است که داستان را منسجم نگه می‌دارد.

مراحل بعدی شامل افزودن همگام‌سازی لب (lip-syncing) و یک کتابخانه شخصیت برای بازیابی (retrieval) حتی بهتر است.

Code: https://github.com/calderbuild/continuum

Source: https://dev.to/jasonrobertdestiny/building-continuum-an-agent-that-shoots-a-whole-drama-series-not-one-clip-4g3o

Optional learning community: https://t.me/GyaanSetuAi