मैंने AI के साथ अपने थंबनेल वर्कफ़्लो को ऑटोमेट किया। यहाँ बताया गया है कि क्या हुआ।

मैं एक बैकएंड डेवलपर हूँ। मैं एक तकनीकी YouTube चैनल भी चलाता हूँ। पिछले हफ्ते, मैंने एक थंबनेल पर चार घंटे बिताए। इसका क्लिक-थ्रू रेट (CTR) केवल 2.4% रहा।

मैंने एक सिद्धांत का परीक्षण करने का निर्णय लिया। क्या AI मेरी मैन्युअल डिज़ाइन प्रक्रिया की जगह ले सकता है? क्या एक text-to-thumbnail वर्कफ़्लो वास्तविक कंटेंट पाइपलाइन के लिए काम कर सकता है?

मैं इस बारे में गलत था कि यह कितना आसान होगा।

सबसे बड़ी समस्या टाइपोग्राफी (typography) की है। थंबनेल डिज़ाइन में, टेक्स्ट आधे सेकंड से भी कम समय में पढ़ा जाने योग्य होना चाहिए। यदि कोई दर्शक छोटे फोन की स्क्रीन पर आपका शीर्षक नहीं पढ़ सकता, तो इमेज विफल हो जाती है।

मैंने कई प्रॉम्प्ट्स (prompts) आज़माए। अधिकांश परिणाम आपदाजनक थे।

  • AI ने "FIX IT" को एक पिघले हुए, अपठनीय फ़ॉन्ट में रेंडर किया।
  • इसने शब्दों को गलत तरीके से "FIXX IT" लिख दिया।
  • इसने टेक्स्ट को ऐसी जगह रख दिया जहाँ YouTube का टाइमस्टैम्प उसे ढक देगा।

एक डेवलपर के रूप में, मैं उम्मीद करता हूँ कि टूल्स स्पष्ट एरर मैसेज (error messages) के साथ विफल हों। AI अलग तरह से विफल होता है। यह चुपचाप और बेतरतीब ढंग से विफल होता है। इसमें कोई एरर लॉग (error log) नहीं होता। आपको बस हर बार एक अलग गलत उत्तर मिलता है।

समस्या आर्किटेक्चरल (architectural) है। इमेज मॉडल लेआउट इंजन नहीं होते हैं। वे बाउंडिंग बॉक्स (bounding boxes) या टेक्स्ट की स्पष्टता (legibility) को नहीं समझते हैं। वे ऐसे पिक्सेल बनाते हैं जो दिखने में तो सही लगते हैं लेकिन ठीक से काम नहीं करते।

मैंने यह देखने के लिए Thumbs.ai का परीक्षण किया कि क्या विशेष टूल्स ने इसे ठीक कर दिया है। यह एक कदम आगे था क्योंकि यह टेक्स्ट से बैकग्राउंड को अलग कर देता है। इससे लेयर्स (layers) का उपयोग संभव हो पाता है। हालाँकि, ऑटोमेटेड फ़ॉन्ट सुझाव अभी भी विज़ुअल मूड से कटे हुए महसूस हुए।

मुझे अपने मेंटल मॉडल (mental model) को बदलना पड़ा।

Text-to-thumbnail टूल्स कोई बिल्ड पाइपलाइन नहीं हैं। वे एक स्कैफोल्डिंग जनरेटर (scaffolding generator) हैं। वे शुरुआत करने के लिए उपयोगी हैं, लेकिन मानवीय समीक्षा के बिना वे प्रोडक्शन-रेडी (production-ready) काम नहीं दे सकते।

जो वर्कफ़्लो वास्तव में काम करता है वह इस प्रकार है:

  • हाई-क्वालिटी, बिना टेक्स्ट वाले बैकग्राउंड प्लेट्स बनाने के लिए AI का उपयोग करें।
  • उन बैकग्राउंड्स को अपने स्वयं के एडिटर में इम्पोर्ट करें।
  • अपना टेक्स्ट, फ़ॉन्ट और शैडो मैन्युअल रूप से जोड़ें।

इस तरीके में मुझे चार मिनट लगे। यह स्टॉक फोटो खोजने या जटिल बैकग्राउंड को मास्क करने की तुलना में बहुत तेज़ है।

क्रिएटर्स के लिए मेरे निष्कर्ष:

  • AI डिज़ाइन का विकल्प नहीं है। यह रॉ मटेरियल (raw material) जेनरेट करने का एक तरीका है।
  • टेक्स्ट रेंडरिंग वर्तमान में अविश्वसनीय है। अपनी टाइपोग्राफी खुद संभालें।
  • असली वैल्यू बैकग्राउंड जनरेशन और कॉन्सेप्ट्स को एक्सप्लोर करने में है।

AI एक मूड का अनुमान लगा सकता है, लेकिन यह एक सफल फॉर्मूले को क्लोन नहीं कर सकता। यह समस्या के आसान हिस्सों को हल करता है, लेकिन कठिन हिस्सों को नहीं।

स्रोत: https://dev.to/sophie_bella_5f438de0c1c3/i-tried-to-automate-my-thumbnail-pipeline-with-ai-at-3-am-heres-what-actually-happened-1be5