ഞാൻ എന്റെ തംബ്നെയിൽ വർക്ക്ഫ്ലോ AI ഉപയോഗിച്ച് ഓട്ടോമേറ്റ് ചെയ്തു. സംഭവിച്ചത് ഇതാണ്.
ഞാൻ ഒരു ബാക്കെൻഡ് ഡെവലപ്പർ ആണ്. അതോടൊപ്പം ഒരു ടെക്നിക്കൽ YouTube ചാനലും ഞാൻ നടത്തുന്നുണ്ട്. കഴിഞ്ഞ ആഴ്ച, ഒരു തംബ്നെയിലിനായി ഞാൻ നാല് മണിക്കൂർ ചിലവഴിച്ചു. എന്നാൽ അതിന് ലഭിച്ച ക്ലിക്ക്-ത്രൂ റേറ്റ് (click-through rate) വെറും 2.4% മാത്രമായിരുന്നു.
ഞാൻ ഒരു സിദ്ധാന്തം പരീക്ഷിക്കാൻ തീരുമാനിച്ചു. എന്റെ മാനുവൽ ഡിസൈൻ പ്രക്രിയയെ AI-ക്ക് പകരം വെക്കാൻ കഴിയുമോ? ഒരു യഥാർത്ഥ കണ്ടന്റ് പൈപ്പ്ലൈനിനായി 'text-to-thumbnail' വർക്ക്ഫ്ലോ പ്രവർത്തിക്കുമോ?
ഇത് എത്രത്തോളം എളുപ്പമായിരിക്കുമെന്ന് ഞാൻ തെറ്റായി കരുതിപ്പോയി.
ഏറ്റവും വലിയ പ്രശ്നം ടൈപ്പോഗ്രാഫി (typography) ആണ്. തംബ്നെയിൽ ഡിസൈനിൽ, പകുതി സെക്കൻഡിൽ താഴെ സമയം കൊണ്ട് തന്നെ ടെക്സ്റ്റ് വായിക്കാൻ കഴിയുന്നതായിരിക്കണം. ഒരു ചെറിയ ഫോൺ സ്ക്രീനിൽ കാണുന്ന ഒരാൾക്ക് നിങ്ങളുടെ ടൈറ്റിൽ വായിക്കാൻ കഴിയുന്നില്ലെങ്കിൽ, ആ ചിത്രം പരാജയപ്പെട്ടുവെന്ന് അർത്ഥം.
ഞാൻ പലതരം പ്രോംപ്റ്റുകൾ പരീക്ഷിച്ചു. മിക്ക ഫലങ്ങളും പരാജയമായിരുന്നു.
- AI "FIX IT" എന്നത് വായിക്കാൻ കഴിയാത്ത വിധം ഉരുകിയ അക്ഷരങ്ങളിൽ നിർമ്മിച്ചു.
- അത് "FIXX IT" എന്ന് തെറ്റായി എഴുതി.
- YouTube ടൈംസ്റ്റാമ്പ് വരുന്ന ഭാഗത്താണ് അത് ടെക്സ്റ്റ് നൽകിയത്.
ഒരു ഡെവലപ്പർ എന്ന നിലയിൽ, ടൂളുകൾ പരാജയപ്പെടുമ്പോൾ വ്യക്തമായ എറർ മെസ്സേജുകൾ (error messages) ലഭിക്കുമെന്ന് ഞാൻ പ്രതീക്ഷിക്കുന്നു. എന്നാൽ AI വ്യത്യസ്തമായാണ് പരാജയപ്പെടുന്നത്. അത് നിശബ്ദമായും ക്രമരഹിതമായും പരാജയപ്പെടുന്നു. അവിടെ ഒരു എറർ ലോഗും (error log) ഇല്ല. ഓരോ തവണയും നിങ്ങൾക്ക് ലഭിക്കുന്നത് വ്യത്യസ്തമായ തെറ്റായ ഉത്തരങ്ങൾ മാത്രമാണ്.
ഇതിന്റെ പ്രശ്നം ആർക്കിടെക്ചറിലാണ്. ഇമേജ് മോഡലുകൾ ലേഔട്ട് എഞ്ചിനുകളല്ല. അവയ്ക്ക് ബൗണ്ടിംഗ് ബോക്സുകളെക്കുറിച്ചോ (bounding boxes) ടെക്സ്റ്റിന്റെ വ്യക്തതയെക്കുറിച്ചോ (text legibility) അറിയില്ല. അവ ശരിയാണെന്ന് തോന്നിക്കുന്ന പിക്സലുകൾ നിർമ്മിക്കുന്നുണ്ടെങ്കിലും അവ പ്രായോഗികമായി ഫലപ്രദമല്ല.
പ്രത്യേകമായി നിർമ്മിച്ച ടൂളുകൾ ഈ പ്രശ്നം പരിഹരിക്കുമോ എന്ന് നോക്കാൻ ഞാൻ Thumbs.ai പരീക്ഷിച്ചു. അത് ഒരു ഘട്ടം മുന്നോട്ടുള്ള ചുവടുവെപ്പായിരുന്നു, കാരണം അത് ബാക്ക്ഗ്രൗണ്ടിനെ ടെക്സ്റ്റിൽ നിന്ന് വേർതിരിക്കുന്നു. ഇത് ലെയറുകൾ (layers) ഉപയോഗിക്കാൻ സഹായിക്കുന്നു. എന്നിരുന്നാലും, ഓട്ടോമേറ്റഡ് ഫോണ്ട് നിർദ്ദേശങ്ങൾ വിഷ്വൽ മൂഡിന് (visual mood) അനുയോജ്യമല്ലെന്ന് തോന്നി.
എനിക്ക് എന്റെ ചിന്താഗതി മാറ്റേണ്ടി വന്നു.
Text-to-thumbnail ടൂളുകൾ ഒരു ബിൽഡ് പൈപ്പ്ലൈൻ (build pipeline) അല്ല. അവ ഒരു സ്കാഫോൾഡിംഗ് ജനറേറ്റർ (scaffolding generator) മാത്രമാണ്. കാര്യങ്ങൾ തുടങ്ങാൻ അവ ഉപകരിക്കും, എന്നാൽ മനുഷ്യന്റെ പരിശോധനയില്ലാതെ അവയ്ക്ക് പ്രൊഡക്ഷൻ റെഡി (production-ready) ആയ ജോലികൾ ചെയ്യാൻ കഴിയില്ല.
യഥാർത്ഥത്തിൽ ഫലപ്രദമായ വർക്ക്ഫ്ലോ ഇതാകുന്നു:
- ഉയർന്ന നിലവാരമുള്ള, ടെക്സ്റ്റ് ഇല്ലാത്ത ബാക്ക്ഗ്രൗണ്ട് പ്ലേറ്റുകൾ നിർമ്മിക്കാൻ AI ഉപയോഗിക്കുക.
- ആ ബാക്ക്ഗ്രൗണ്ടുകൾ നിങ്ങളുടെ സ്വന്തം എഡിറ്ററിലേക്ക് ഇംപോർട്ട് ചെയ്യുക.
- നിങ്ങളുടെ സ്വന്തം ടെക്സ്റ്റ്, ഫോണ്ടുകൾ, ഷാഡോകൾ എന്നിവ മാനുവലായി ചേർക്കുക.
ഈ രീതി എനിക്ക് നാല് മിനിറ്റ് മാത്രമേ എടുത്തുള്ളൂ. സ്റ്റോക്ക് ഫോട്ടോകൾ തിരയുന്നതിനേക്കാളോ സങ്കീർണ്ണമായ ബാക്ക്ഗ്രൗണ്ടുകൾ മാസ്കിംഗ് (masking) ചെയ്യുന്നതിനേക്കാളോ ഇത് വളരെ വേഗത്തിലുള്ളതാണ്.
ക്രിയേറ്റർമാർക്കുള്ള എന്റെ കണ്ടെത്തലുകൾ:
- AI ഡിസൈനിന് പകരക്കാരനല്ല. അത് റോ മെറ്റീരിയലുകൾ (raw material) നിർമ്മിക്കാനുള്ള ഒരു മാർഗ്ഗമാണ്.
- ടെക്സ്റ്റ് റെൻഡറിംഗ് നിലവിൽ വിശ്വസനീയമല്ല. നിങ്ങളുടെ ടൈപ്പോഗ്രാഫി സ്വന്തമായി കൈകാര്യം ചെയ്യുക.
- ബാക്ക്ഗ്രൗണ്ട് നിർമ്മാണത്തിലും ആശയങ്ങൾ പരീക്ഷിക്കുന്നതിലുമാണ് ഇതിന്റെ യഥാർത്ഥ മൂല്യം.
AI-ക്ക് ഒരു മൂഡ് (mood) ഏകദേശമായി നൽകാൻ കഴിയും, എന്നാൽ ഒരു വിജയകരമായ ഫോർമുലയെ അനുകരിക്കാൻ അതിന് കഴിയില്ല. പ്രശ്നത്തിന്റെ എളുപ്പമുള്ള ഭാഗങ്ങൾ അത് പരിഹരിക്കുന്നുണ്ടെങ്കിലും പ്രയാസമേറിയവയല്ല.