Continuum உருவாக்குதல்: முழுத் தொடரையும் படமாக்கும் ஒரு ஏஜென்ட்
பெரும்பாலான AI கருவிகள் ஒரு நல்ல கிளிப்பை (clip) மட்டுமே உருவாக்குகின்றன. நீங்கள் ஒரு தொடரை உருவாக்க முயலும்போது அவை தோல்வியடைகின்றன. ஒவ்வொரு காட்சியிலும் கதாபாத்திரங்கள் வெவ்வேறு விதமாகத் தோன்றுகின்றன. இதனால் ஒவ்வொரு பிரேமையும் (frame) ஒரு மனிதன் சரிசெய்யாமல் கதை சொல்லுவது சாத்தியமற்றதாகிறது.
இதைத் தீர்க்கவே நான் Continuum-ஐ உருவாக்கினேன். இது செங்குத்து மைக்ரோ-டிராமாக்களுக்கான (vertical micro-dramas) ஒரு தன்னாட்சி AI ஷோரன்னர் (showrunner) ஆகும். இது ஸ்கிரிப்ட், ஸ்டோரிபோர்டு, வீடியோ, இசை மற்றும் எடிட்டிங் ஆகியவற்றை கையாளுகிறது. மிக முக்கியமாக, முதல் எபிசோட் முதல் இரண்டாவது எபிசோட் வரை கதாபாத்திரங்கள் ஒரே மாதிரியாகத் தெரிவதை இது உறுதி செய்கிறது.
செங்குத்து மைக்ரோ-டிராமா சந்தை மிகப்பெரியது. இது 2025-ல் $11B அளவை எட்டியது. சீனாவில், 95% புதிய படைப்புகளில் AI பயன்படுத்தப்படுகிறது.
Continuum மூன்று முக்கிய அமைப்புகளைப் பயன்படுத்திச் செயல்படுகிறது:
ஒரு சீரிஸ் பைபிள் (Series Bible): இந்த JSON ஆவணம் கதாபாத்திரங்களின் தோற்றம், பொருட்கள் (props) மற்றும் இடங்களைச் சேமித்து வைக்கிறது. ஒருமுறை கதாபாத்திரத்தின் தோற்றம் நிர்ணயிக்கப்பட்டால், அந்த ஏஜென்ட்டால் முகத்தை மாற்ற முடியாது. இது காட்சி மாறுபாட்டைத் (visual drift) தடுக்கிறது.
ஒரு கிரிட்டிக்-ஆப்டிமைசர் லூப் (Critic-Optimizer Loop): ஒரு கிளிப் உருவான பிறகு, Qwen-VL அதை அசல் கதாபாத்திரத்துடன் ஒப்பிடுகிறது. பொருத்தம் குறைவாக இருந்தால், ஏஜென்ட் ப்ராம்ப்ட்டை (prompt) மாற்றி மீண்டும் முயற்சிக்கிறது. ஏஜென்ட் தனது தவறுகளைத் தானே சரிசெய்கிறது.
ஒரு சீரான தன்மை மதிப்பெண் (Consistency Score): அடையாளப் பொருத்தத்திற்கு ஒரு உண்மையான எண்ணைக் கொடுக்க நான் ஒரு விஷுவல் ஜட்ஜை (visual judge) பயன்படுத்துகிறேன். எனது இரண்டு எபிசோட்கள் கொண்ட டெமோ 0.98 மதிப்பெண் பெற்றது. அந்தத் துப்பறியும் நிபுணர், அவரது தலைமுடி மற்றும் அவரது பச்சை குத்து (tattoo) ஆகியவை அனைத்துக் காட்சிகளிலும் ஒரே மாதிரியாக இருந்தன.
தொழில்நுட்ப அடுக்கு (Technical Stack):
- ஸ்கிரிப்டிங் மற்றும் ஆப்டிமைசேஷன்: Qwen3-max
- விஷுவல் கிரிட்டிக்: Qwen-VL
- வீடியோ உருவாக்கம்: Qwen Cloud மூலம் Wan text-to-video
- பேக்எண்ட்: Alibaba Cloud-இல் FastAPI
இந்த உருவாக்கத்தின் போது நான் மூன்று முக்கிய பாடங்களைக் கற்றுக்கொண்டேன்:
API பிழைகளைக் கையாளுதல்: வீடியோ API-யிலிருந்து எனக்குத் திடீரென 503 பிழைகள் ஏற்பட்டன. நான் எனது லாஜிக்கை (logic) மீண்டும் எழுதுவதை நிறுத்திவிட்டு, ஒரு ரீட்ரை (retry) சிஸ்டத்தை உருவாக்கத் தொடங்கினேன். இது ஒரு முறிந்த குழாயை (broken pipeline) தானாக இயங்கும் ஒரு அமைப்பாக மாற்றியது.
செலவைக் கட்டுப்படுத்துங்கள்: வீடியோ உருவாக்கம் செலவு மிக்கது. பட்ஜெட்டுக்குள் இருக்க நான் 720p ரெசல்யூஷனைப் பயன்படுத்தினேன் மற்றும் செலவிற்கான வரம்புகளை (spending caps) நிர்ணயித்தேன்.
உங்கள் தனித்துவத்தில் (moat) கவனம் செலுத்துங்கள்: மதிப்பு வீடியோவில் இல்லை. கதையைத் தர்க்கரீதியாகத் தொடர வைக்கும் நினைவாற்றலில்தான் (memory) மதிப்பு உள்ளது.
அடுத்த கட்டமாக, சிறந்தத் தரவு மீட்டெடுப்பிற்காக (retrieval) லிப்-சின்க் (lip-syncing) மற்றும் ஒரு கதாபாத்திர நூலகத்தைச் (character library) சேர்ப்பது அடங்கும்.
Code: https://github.com/calderbuild/continuum
Optional learning community: https://t.me/GyaanSetuAi
