Xây dựng Continuum: Một Agent có khả năng quay cả một loạt phim truyền hình
Hầu hết các công cụ AI chỉ tạo ra được một clip chất lượng. Chúng thất bại khi bạn cố gắng tạo ra một loạt phim. Nhân vật trông khác nhau trong mỗi cảnh quay. Điều này khiến việc kể chuyện trở nên bất khả thi nếu không có con người chỉnh sửa từng khung hình.
Tôi đã xây dựng Continuum để giải quyết vấn đề này. Đây là một AI showrunner tự hành dành cho các phim micro-drama dạng dọc. Nó xử lý kịch bản, storyboard, video, âm nhạc và biên tập. Quan trọng nhất, nó giữ cho ngoại hình nhân vật đồng nhất từ tập một đến tập hai.
Thị trường micro-drama dạng dọc là cực kỳ lớn. Nó đã đạt mức 11 tỷ USD vào năm 2025. Tại Trung Quốc, 95% các tác phẩm mới có sử dụng AI.
Continuum hoạt động dựa trên ba hệ thống cốt lõi:
Một Series Bible: Tài liệu JSON này lưu trữ ngoại hình nhân vật, đạo cụ và bối cảnh. Một khi ngoại hình nhân vật đã được thiết lập, agent sẽ không thể thay đổi khuôn mặt. Điều này giúp ngăn chặn sự sai lệch về hình ảnh (visual drift).
Một vòng lặp Critic-Optimizer: Sau khi một clip được tạo ra, Qwen-VL sẽ so sánh nó với nhân vật gốc. Nếu độ khớp thấp, agent sẽ viết lại prompt và thử lại. Agent tự sửa chữa các lỗi của chính mình.
Một Consistency Score: Tôi sử dụng một bộ đánh giá hình ảnh để đưa ra con số thực tế cho việc khớp danh tính. Bản demo hai tập của tôi đạt điểm 0,98. Thám tử, mái tóc và hình xăm của anh ta vẫn giữ nguyên không đổi qua các cảnh quay.
Technical Stack:
- Scripting và Optimization: Qwen3-max
- Visual Critic: Qwen-VL
- Video Generation: Wan text-to-video qua Qwen Cloud
- Backend: FastAPI trên Alibaba Cloud
Tôi đã rút ra ba bài học lớn trong quá trình xây dựng này:
Xử lý lỗi API: Tôi đã gặp các lỗi 503 ngẫu nhiên từ video API. Thay vì cứ viết lại logic, tôi bắt đầu xây dựng một hệ thống thử lại (retry system). Điều này đã biến một pipeline bị lỗi thành một pipeline có thể vận hành tự động.
Kiểm soát chi phí: Tạo video rất tốn kém. Tôi đã sử dụng độ phân giải 720p và thiết lập các hạn mức chi tiêu cứng để đảm bảo nằm trong ngân sách.
Tập trung vào "hào phòng thủ" (moat): Giá trị không nằm ở video. Giá trị nằm ở bộ nhớ giúp giữ cho câu chuyện luôn mạch lạc.
Các bước tiếp theo bao gồm việc thêm tính năng lip-sync (đồng bộ môi) và một thư viện nhân vật để việc truy xuất được tốt hơn nữa.
Code: https://github.com/calderbuild/continuum
Optional learning community: https://t.me/GyaanSetuAi
