بناء Continuum: عميل ذكاء اصطناعي يصور مسلسلات درامية كاملة

معظم أدوات الذكاء الاصطناعي تنتج مقطعاً واحداً جيداً، لكنها تفشل عندما تحاول صنع مسلسل؛ حيث تبدو الشخصيات مختلفة في كل لقطة. وهذا يجعل سرد القصص أمراً مستحيلاً دون تدخل بشري لتصحيح كل إطار.

لقد قمت ببناء Continuum لحل هذه المشكلة. إنه "showrunner" (مدير إنتاج) ذكاء اصطناعي مستقل للمسلسلات الدرامية القصيرة العمودية (vertical micro-dramas). يتولى Continuum كتابة السيناريو، ورسم الـ storyboards، وإنتاج الفيديو، والموسيقى، والمونتاج. والأهم من ذلك، أنه يحافظ على مظهر الشخصيات ثابتاً من الحلقة الأولى إلى الحلقة الثانية.

سوق المسلسلات الدرامية القصيرة العمودية ضخم للغاية، حيث وصل إلى 11 مليار دولار في عام 2025. وفي الصين، تستخدم 95% من الأعمال الجديدة الذكاء الاصطناعي.

يعمل Continuum باستخدام ثلاثة أنظمة أساسية:

  • Series Bible (مرجع المسلسل): تقوم وثيقة JSON هذه بتخزين مظهر الشخصيات، والأدوات، والمواقع. وبمجرد تحديد مظهر الشخصية، لا يمكن للعميل تغيير الوجه، مما يمنع الانحراف البصري (visual drift).

  • حلقة الناقد والمُحسِّن (Critic-Optimizer Loop): بعد إنشاء المقطع، يقوم Qwen-VL بمقارنته بالشخصية الأصلية. إذا كانت نسبة التطابق منخفضة، يعيد العميل كتابة الـ prompt ويحاول مرة أخرى. العميل يقوم بتصحيح أخطائه بنفسه.

  • درجة الاتساق (Consistency Score): أستخدم حكماً بصرياً لإعطاء رقم حقيقي لمطابقة الهوية. حقق العرض التجريبي المكون من حلقتين درجة 0.98. ظل المحقق وشعره ووشمه متطابقين تماماً عبر المشاهد.

Technical Stack:

  • Scripting and Optimization: Qwen3-max
  • Visual Critic: Qwen-VL
  • Video Generation: Wan text-to-video via Qwen Cloud
  • Backend: FastAPI on Alibaba Cloud

تعلمت ثلاثة دروس كبيرة خلال عملية البناء هذه:

  1. التعامل مع أخطاء الـ API: واجهت أخطاء 503 عشوائية من واجهة برمجة تطبيقات الفيديو (video API). توقفت عن إعادة كتابة المنطق البرمجي الخاص بي وبدأت في بناء نظام إعادة محاولة (retry system). حول هذا الأمر خط الإنتاج المتعطل إلى خط إنتاج يعمل بشكل مستقل دون تدخل.

  2. التحكم في التكاليف: إنتاج الفيديو مكلف. استخدمت دقة 720p ووضعت حدوداً قصوى للإنفاق للبقاء ضمن الميزانية.

  3. التركيز على الميزة التنافسية (the moat): القيمة ليست في الفيديو، بل في الذاكرة التي تحافظ على تماسك القصة.

تتضمن الخطوات التالية إضافة مزامنة الشفاه (lip-syncing) ومكتبة شخصيات لتحسين عملية الاسترجاع بشكل أكبر.

Code: https://github.com/calderbuild/continuum

Source: https://dev.to/jasonrobertdestiny/building-continuum-an-agent-that-shoots-a-whole-drama-series-not-one-clip-4g3o

Optional learning community: https://t.me/GyaanSetuAi