मी माझे थंबनेल वर्कफ्लो AI द्वारे ऑटोमेट केले. काय घडले ते येथे पहा.

मी एक बॅकएंड डेव्हलपर आहे. मी एक तांत्रिक YouTube चॅनेल देखील चालवतो. गेल्या आठवड्यात, मी एका थंबनेलसाठी चार तास खर्च केले. त्याला फक्त २.४% क्लिक-थ्रू रेट (click-through rate) मिळाला.

मी एक सिद्धांत तपासण्याचे ठरवले. AI माझ्या मॅन्युअल डिझाइन प्रक्रियेची जागा घेऊ शकते का? 'टेक्स्ट-टू-थंबनेल' वर्कफ्लो खऱ्या कंटेंट पाइपलाइनसाठी काम करू शकतो का?

हे किती सोपे असेल याबद्दल माझा अंदाज चुकला.

सर्वात मोठी समस्या टायपोग्राफीची (typography) आहे. थंबनेल डिझाइनमध्ये, मजकूर अर्ध्या सेकंदापेक्षा कमी वेळात वाचण्यायोग्य असावा लागतो. जर प्रेक्षक तुमच्या लहान फोनच्या स्क्रीनवर तुमचे शीर्षक वाचू शकले नाहीत, तर ते चित्र अपयशी ठरते.

मी अनेक प्रॉम्प्ट्स (prompts) वापरून पाहिले. बहुतेक निकाल अत्यंत निराशाजनक होते.

  • AI ने "FIX IT" हे शब्द वितळलेल्या, वाचता न येण्यासारख्या फॉन्टमध्ये तयार केले.
  • त्याने "FIXX IT" असे शब्द चुकीचे लिहिले.
  • त्याने मजकूर अशा ठिकाणी ठेवला जिथे YouTube चा टाइमस्टॅम्प (timestamp) तो झाकून टाकेल.

एक डेव्हलपर म्हणून, मला अपेक्षा असते की टूल्स स्पष्ट एरर मेसेजसह (error messages) फेल होतील. AI वेगळ्या पद्धतीने फेल होते. ते शांतपणे आणि यादृच्छिकपणे (randomly) फेल होते. तिथे कोणताही एरर लॉग (error log) नसतो. तुम्हाला फक्त प्रत्येक वेळी एक वेगळे चुकीचे उत्तर मिळते.

ही समस्या आर्किटेक्चरल (architectural) आहे. इमेज मॉडेल्स हे लेआउट इंजिन नाहीत. त्यांना बाउंडिंग बॉक्स (bounding boxes) किंवा मजकुराची वाचनीयता (text legibility) समजत नाही. ते असे पिक्सेल्स तयार करतात जे दिसायला योग्य वाटतात पण व्यवस्थित काम करत नाहीत.

विशेष टूल्समुळे ही समस्या सुटते का हे पाहण्यासाठी मी Thumbs.ai तपासून पाहिले. ते एक पाऊल पुढे होते कारण ते बॅकग्राउंडला मजकुरापासून वेगळे करते. यामुळे लेयर्स (layers) वापरणे शक्य होते. तथापि, ऑटोमेटेड फॉन्ट सूचना अजूनही व्हिज्युअल मूडशी (visual mood) विसंगत वाटत होत्या.

मला माझी मानसिक मॉडेल (mental model) बदलावी लागली.

टेक्स्ट-टू-थंबनेल टूल्स ही 'बिल्ड पाइपलाइन' नाहीत. ती 'स्कॅफोल्डिंग जनरेटर' (scaffolding generator) आहेत. ती सुरुवात करण्यासाठी उपयुक्त आहेत, परंतु मानवी पुनरावलोकनाशिवाय (human review) त्या प्रोडक्शन-रेडी (production-ready) काम देऊ शकत नाहीत.

प्रत्यक्षात काम करणारा वर्कफ्लो असा दिसतो:

  • उच्च-गुणवत्तेचे, मजकूर नसलेले बॅकग्राउंड प्लेट्स तयार करण्यासाठी AI वापरा.
  • ते बॅकग्राउंड्स तुमच्या स्वतःच्या एडिटरमध्ये इम्पोर्ट करा.
  • तुमचा स्वतःचा मजकूर, फॉन्ट्स आणि शॅडो मॅन्युअली जोडा.

या पद्धतीमुळे मला फक्त चार मिनिटे लागली. स्टॉक फोटोज शोधणे किंवा गुंतागुंतीचे बॅकग्राउंड मास्क करणे यापेक्षा ही पद्धत खूप वेगवान आहे.

क्रिएटरसाठी माझे निष्कर्ष:

  • AI हे डिझाइनला पर्याय नाही. ते कच्चा माल (raw material) तयार करण्याचा एक मार्ग आहे.
  • टेक्स्ट रेंडरिंग सध्या अविश्वसनीय आहे. तुमची टायपोग्राफी स्वतः हाताळा.
  • खरी किंमत बॅकग्राउंड जनरेशन आणि संकल्पना शोधण्यात आहे.

AI मूडचा अंदाज घेऊ शकते, परंतु ती यशस्वी फॉर्म्युलाची क्लोन करू शकत नाही. ते समस्येचे सोपे भाग सोडवते, पण कठीण भाग नाही.

स्रोत: https://dev.to/sophie_bella_5f438de0c1c3/i-tried-to-automate-my-thumbnail-pipeline-with-ai-at-3-am-heres-what-actually-happened-1be5