Continuum உருவாக்குதல்: முழுத் தொடரையும் படமாக்கும் ஒரு ஏஜென்ட்

பெரும்பாலான AI கருவிகள் ஒரு நல்ல கிளிப்பை (clip) மட்டுமே உருவாக்குகின்றன. நீங்கள் ஒரு தொடரை உருவாக்க முயலும்போது அவை தோல்வியடைகின்றன. ஒவ்வொரு காட்சியிலும் கதாபாத்திரங்கள் வெவ்வேறு விதமாகத் தோன்றுகின்றன. இதனால் ஒவ்வொரு பிரேமையும் (frame) ஒரு மனிதன் சரிசெய்யாமல் கதை சொல்லுவது சாத்தியமற்றதாகிறது.

இதைத் தீர்க்கவே நான் Continuum-ஐ உருவாக்கினேன். இது செங்குத்து மைக்ரோ-டிராமாக்களுக்கான (vertical micro-dramas) ஒரு தன்னாட்சி AI ஷோரன்னர் (showrunner) ஆகும். இது ஸ்கிரிப்ட், ஸ்டோரிபோர்டு, வீடியோ, இசை மற்றும் எடிட்டிங் ஆகியவற்றை கையாளுகிறது. மிக முக்கியமாக, முதல் எபிசோட் முதல் இரண்டாவது எபிசோட் வரை கதாபாத்திரங்கள் ஒரே மாதிரியாகத் தெரிவதை இது உறுதி செய்கிறது.

செங்குத்து மைக்ரோ-டிராமா சந்தை மிகப்பெரியது. இது 2025-ல் $11B அளவை எட்டியது. சீனாவில், 95% புதிய படைப்புகளில் AI பயன்படுத்தப்படுகிறது.

Continuum மூன்று முக்கிய அமைப்புகளைப் பயன்படுத்திச் செயல்படுகிறது:

  • ஒரு சீரிஸ் பைபிள் (Series Bible): இந்த JSON ஆவணம் கதாபாத்திரங்களின் தோற்றம், பொருட்கள் (props) மற்றும் இடங்களைச் சேமித்து வைக்கிறது. ஒருமுறை கதாபாத்திரத்தின் தோற்றம் நிர்ணயிக்கப்பட்டால், அந்த ஏஜென்ட்டால் முகத்தை மாற்ற முடியாது. இது காட்சி மாறுபாட்டைத் (visual drift) தடுக்கிறது.

  • ஒரு கிரிட்டிக்-ஆப்டிமைசர் லூப் (Critic-Optimizer Loop): ஒரு கிளிப் உருவான பிறகு, Qwen-VL அதை அசல் கதாபாத்திரத்துடன் ஒப்பிடுகிறது. பொருத்தம் குறைவாக இருந்தால், ஏஜென்ட் ப்ராம்ப்ட்டை (prompt) மாற்றி மீண்டும் முயற்சிக்கிறது. ஏஜென்ட் தனது தவறுகளைத் தானே சரிசெய்கிறது.

  • ஒரு சீரான தன்மை மதிப்பெண் (Consistency Score): அடையாளப் பொருத்தத்திற்கு ஒரு உண்மையான எண்ணைக் கொடுக்க நான் ஒரு விஷுவல் ஜட்ஜை (visual judge) பயன்படுத்துகிறேன். எனது இரண்டு எபிசோட்கள் கொண்ட டெமோ 0.98 மதிப்பெண் பெற்றது. அந்தத் துப்பறியும் நிபுணர், அவரது தலைமுடி மற்றும் அவரது பச்சை குத்து (tattoo) ஆகியவை அனைத்துக் காட்சிகளிலும் ஒரே மாதிரியாக இருந்தன.

தொழில்நுட்ப அடுக்கு (Technical Stack):

  • ஸ்கிரிப்டிங் மற்றும் ஆப்டிமைசேஷன்: Qwen3-max
  • விஷுவல் கிரிட்டிக்: Qwen-VL
  • வீடியோ உருவாக்கம்: Qwen Cloud மூலம் Wan text-to-video
  • பேக்எண்ட்: Alibaba Cloud-இல் FastAPI

இந்த உருவாக்கத்தின் போது நான் மூன்று முக்கிய பாடங்களைக் கற்றுக்கொண்டேன்:

  1. API பிழைகளைக் கையாளுதல்: வீடியோ API-யிலிருந்து எனக்குத் திடீரென 503 பிழைகள் ஏற்பட்டன. நான் எனது லாஜிக்கை (logic) மீண்டும் எழுதுவதை நிறுத்திவிட்டு, ஒரு ரீட்ரை (retry) சிஸ்டத்தை உருவாக்கத் தொடங்கினேன். இது ஒரு முறிந்த குழாயை (broken pipeline) தானாக இயங்கும் ஒரு அமைப்பாக மாற்றியது.

  2. செலவைக் கட்டுப்படுத்துங்கள்: வீடியோ உருவாக்கம் செலவு மிக்கது. பட்ஜெட்டுக்குள் இருக்க நான் 720p ரெசல்யூஷனைப் பயன்படுத்தினேன் மற்றும் செலவிற்கான வரம்புகளை (spending caps) நிர்ணயித்தேன்.

  3. உங்கள் தனித்துவத்தில் (moat) கவனம் செலுத்துங்கள்: மதிப்பு வீடியோவில் இல்லை. கதையைத் தர்க்கரீதியாகத் தொடர வைக்கும் நினைவாற்றலில்தான் (memory) மதிப்பு உள்ளது.

அடுத்த கட்டமாக, சிறந்தத் தரவு மீட்டெடுப்பிற்காக (retrieval) லிப்-சின்க் (lip-syncing) மற்றும் ஒரு கதாபாத்திர நூலகத்தைச் (character library) சேர்ப்பது அடங்கும்.

Code: https://github.com/calderbuild/continuum

Source: https://dev.to/jasonrobertdestiny/building-continuum-an-agent-that-shoots-a-whole-drama-series-not-one-clip-4g3o

Optional learning community: https://t.me/GyaanSetuAi