ساخت Continuum: عاملی که کل یک سریال درام را میسازد
بیشتر ابزارهای هوش مصنوعی فقط یک کلیپ خوب میسازند. وقتی سعی میکنید یک سریال بسازید، شکست میخورند. ظاهر شخصیتها در هر نما متفاوت است. این موضوع باعث میشود بدون دخالت انسان برای اصلاح تکتک فریمها، داستانسرایی غیرممکن شود.
من Continuum را برای حل این مشکل ساختم. این یک مدیر تولید (showrunner) خودکار مبتنی بر هوش مصنوعی برای ریز-درامهای عمودی (vertical micro-dramas) است. این سیستم فیلمنامه، استوریبورد، ویدیو، موسیقی و تدوین را مدیریت میکند. از همه مهمتر، ظاهر شخصیتها را از قسمت اول تا قسمت دوم یکسان نگه میدارد.
بازار ریز-درامهای عمودی بسیار بزرگ است. ارزش این بازار در سال ۲۰۲۵ به ۱۱ میلیارد دلار رسید. در چین، ۹۵٪ از آثار جدید از هوش مصنوعی استفاده میکنند.
Continuum با استفاده از سه سیستم اصلی کار میکند:
کتاب مقدس سریال (Series Bible): این سند JSON، ظاهر شخصیتها، اشیاء (props) و مکانها را ذخیره میکند. وقتی ظاهر یک شخصیت تعیین شد، عامل (agent) نمیتواند چهره را تغییر دهد. این کار از تغییرات ناخواسته بصری (visual drift) جلوگیری میکند.
حلقه منتقد-بهینهساز (Critic-Optimizer Loop): پس از تولید یک کلیپ، Qwen-VL آن را با شخصیت اصلی مقایسه میکند. اگر میزان تطابق کم باشد، عامل دستور (prompt) را بازنویسی کرده و دوباره تلاش میکند. عامل اشتباهات خود را اصلاح میکند.
امتیاز ثبات (Consistency Score): من از یک داور بصری استفاده میکنم تا یک عدد واقعی برای تطابق هویت ارائه دهد. دموی دو قسمتی من امتیاز ۰.۹۸ را کسب کرد. کارآگاه، موهای او و خالکوبیاش در تمام صحنهها کاملاً یکسان باقی ماندند.
پشته فنی (Technical Stack):
- اسکریپتنویسی و بهینهسازی: Qwen3-max
- منتقد بصری: Qwen-VL
- تولید ویدیو: Wan text-to-video از طریق Qwen Cloud
- بکاند: FastAPI روی Alibaba Cloud
من در طول این ساخت، سه درس بزرگ آموختم:
۱. مدیریت خطاهای API: من با خطاهای تصادفی ۵۰۳ از سمت API ویدیو مواجه شدم. به جای بازنویسی منطق برنامهام، شروع به ساخت یک سیستم تلاش مجدد (retry system) کردم. این کار یک خط لوله (pipeline) خراب را به یک خط لوله خودکار و بدون نیاز به نظارت تبدیل کرد.
۲. کنترل هزینهها: تولید ویدیو گران است. من از رزولوشن 720p استفاده کردم و سقفهای هزینهای مشخصی تعیین کردم تا در محدوده بودجه باقی بمانم.
۳. تمرکز بر مزیت رقابتی (moat): ارزش اصلی در ویدیو نیست؛ ارزش در حافظهای است که داستان را منسجم نگه میدارد.
مراحل بعدی شامل افزودن همگامسازی لب (lip-syncing) و یک کتابخانه شخصیت برای بازیابی (retrieval) حتی بهتر است.
Code: https://github.com/calderbuild/continuum
Optional learning community: https://t.me/GyaanSetuAi
