Continuum তৈরি করা: একটি এজেন্ট যা পুরো ড্রামা সিরিজ তৈরি করতে পারে

বেশিরভাগ AI টুল একটি ভালো ক্লিপ তৈরি করতে পারে। কিন্তু আপনি যখন একটি সিরিজ তৈরি করার চেষ্টা করেন, তখন সেগুলো ব্যর্থ হয়। প্রতিটি শটে চরিত্রগুলোকে আলাদা দেখায়। এর ফলে প্রতিটি ফ্রেম মানুষের মাধ্যমে ঠিক না করলে গল্প বলা অসম্ভব হয়ে পড়ে।

আমি এই সমস্যা সমাধানের জন্য Continuum তৈরি করেছি। এটি ভার্টিক্যাল মাইক্রো-ড্রামার (vertical micro-dramas) জন্য একটি স্বয়ংক্রিয় AI শো রানার (showrunner)। এটি স্ক্রিপ্ট, স্টোরিবোর্ড, ভিডিও, মিউজিক এবং এডিটিং পরিচালনা করে। সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো, এটি প্রথম এপিসোড থেকে দ্বিতীয় এপিসোড পর্যন্ত চরিত্রগুলোর চেহারা একই রকম রাখে।

ভার্টিক্যাল মাইক্রো-ড্রামা মার্কেট বিশাল। ২০২৫ সালে এটি ১১ বিলিয়ন ডলারে পৌঁছেছে। চীনে, ৯৫% নতুন টাইটেল তৈরিতে AI ব্যবহার করা হয়।

Continuum তিনটি মূল সিস্টেম ব্যবহার করে কাজ করে:

  • একটি Series Bible: এই JSON ডকুমেন্টটি চরিত্রের চেহারা, প্রপস (props) এবং লোকেশন সংরক্ষণ করে। একবার একটি চরিত্রের চেহারা সেট হয়ে গেলে, এজেন্ট আর মুখ পরিবর্তন করতে পারে না। এটি ভিজ্যুয়াল ড্রিপ্ট (visual drift) রোধ করে।

  • একটি Critic-Optimizer Loop: একটি ক্লিপ জেনারেট হওয়ার পর, Qwen-VL এটিকে মূল চরিত্রের সাথে তুলনা করে। যদি মিল কম হয়, তবে এজেন্ট প্রম্পটটি পুনরায় লিখে আবার চেষ্টা করে। এজেন্ট নিজেই নিজের ভুল সংশোধন করে নেয়।

  • একটি Consistency Score: আইডেন্টিটি ম্যাচিংয়ের জন্য একটি প্রকৃত সংখ্যা প্রদান করতে আমি একটি ভিজ্যুয়াল জাজ (visual judge) ব্যবহার করি। আমার দুই এপিসোডের ডেমো স্কোর ছিল ০.৯৮। ডিটেকটিভ, তার চুল এবং তার ট্যাটু প্রতিটি দৃশ্যে হুবহু এক ছিল।

Technical Stack:

  • Scripting and Optimization: Qwen3-max
  • Visual Critic: Qwen-VL
  • Video Generation: Qwen Cloud-এর মাধ্যমে Wan text-to-video
  • Backend: Alibaba Cloud-এ FastAPI

এই তৈরির সময় আমি তিনটি বড় শিক্ষা পেয়েছি:

১. API এরর হ্যান্ডেল করা: আমি ভিডিও API থেকে এলোমেলোভাবে 503 এরর ফেস করেছি। আমি আমার লজিক পুনরায় লেখা বন্ধ করে একটি রিট্রাই (retry) সিস্টেম তৈরি করা শুরু করি। এটি একটি ত্রুটিপূর্ণ পাইপলাইনকে একটি স্বয়ংক্রিয় (unattended) পাইপলাইনে পরিণত করেছে।

২. খরচ নিয়ন্ত্রণ করা: ভিডিও জেনারেশন বেশ ব্যয়বহুল। আমি বাজেটের মধ্যে থাকতে 720p রেজোলিউশন ব্যবহার করেছি এবং খরচের একটি নির্দিষ্ট সীমা (hard spending caps) নির্ধারণ করেছি।

৩. মোট (moat)-এর ওপর গুরুত্ব দেওয়া: আসল ভ্যালু ভিডিওতে নয়। আসল ভ্যালু হলো সেই মেমরি (memory), যা গল্পটিকে সামঞ্জস্যপূর্ণ রাখে।

পরবর্তী পদক্ষেপগুলোর মধ্যে রয়েছে আরও উন্নত রিট্রিভালের (retrieval) জন্য লিপ-সিংকিং (lip-syncing) এবং একটি ক্যারেক্টার লাইব্রেরি যুক্ত করা।

Code: https://github.com/calderbuild/continuum

Source: https://dev.to/jasonrobertdestiny/building-continuum-an-agent-that-shoots-a-whole-drama-series-not-one-clip-4g3o

Optional learning community: https://t.me/GyaanSetuAi