আমি এআই দিয়ে আমার থাম্বনেইল কাজের প্রক্রিয়াটি স্বয়ংক্রিয় করেছি। যা ঘটল তা এখানে দেওয়া হলো।

আমি একজন ব্যাকএন্ড ডেভেলপার। আমি একটি টেকনিক্যাল ইউটিউব চ্যানেলও চালাই। গত সপ্তাহে, একটি থাম্বনেইলের জন্য আমি চার ঘণ্টা সময় ব্যয় করেছি। এর ক্লিক-থ্রু রেট (click-through rate) ছিল মাত্র ২.৪%।

আমি একটি তত্ত্ব পরীক্ষা করার সিদ্ধান্ত নিলাম। এআই কি আমার ম্যানুয়াল ডিজাইন প্রক্রিয়াকে প্রতিস্থাপন করতে পারে? একটি টেক্সট-টু-থাম্বনেইল (text-to-thumbnail) ওয়ার্কফ্লো কি একটি বাস্তব কন্টেন্ট পাইপলাইনের জন্য কাজ করতে পারে?

এটি কতটা সহজ হবে সে সম্পর্কে আমি ভুল ছিলাম।

সবচেয়ে বড় সমস্যা হলো টাইপোগ্রাফি। থাম্বনেইল ডিজাইনে, টেক্সট বা লেখা অবশ্যই আধা সেকেন্ডের কম সময়ের মধ্যে পড়া সম্ভব হতে হবে। যদি একজন দর্শক ছোট ফোনের স্ক্রিনে আপনার শিরোনাম পড়তে না পারেন, তবে ছবিটি ব্যর্থ।

আমি বেশ কিছু প্রম্পট (prompt) চেষ্টা করেছি। বেশিরভাগ ফলাফলই ছিল বিপর্যয়কর।

  • এআই "FIX IT" লেখাটিকে একটি গলিত এবং অপাঠ্য ফন্টে রেন্ডার করেছে।
  • এটি শব্দটিকে ভুল করে "FIXX IT" লিখেছে।
  • এটি টেক্সট এমন জায়গায় বসিয়েছে যেখানে ইউটিউবের টাইমস্ট্যাম্প সেটি ঢেকে ফেলবে।

একজন ডেভেলপার হিসেবে, আমি আশা করি টুলগুলো স্পষ্ট এরর মেসেজ (error message) দিয়ে ব্যর্থ হবে। এআই ভিন্নভাবে ব্যর্থ হয়। এটি নিঃশব্দে এবং এলোমেলোভাবে ব্যর্থ হয়। এখানে কোনো এরর লগ (error log) নেই। আপনি প্রতিবার শুধু একটি ভিন্ন ভুল উত্তর পান।

সমস্যাটি হলো আর্কিটেকচারাল। ইমেজ মডেলগুলো লেআউট ইঞ্জিন নয়। তারা বাউন্ডিং বক্স (bounding box) বা টেক্সট পঠনযোগ্যতা বোঝে না। তারা এমন পিক্সেল তৈরি করে যা দেখতে ঠিক মনে হলেও কার্যকর হয় না।

বিশেষায়িত টুলগুলো এটি সমাধান করতে পারে কি না তা দেখতে আমি Thumbs.ai পরীক্ষা করেছি। এটি একটি ইতিবাচক পদক্ষেপ ছিল কারণ এটি টেক্সট থেকে ব্যাকগ্রাউন্ডকে আলাদা করে। এটি লেয়ার ব্যবহারের সুযোগ দেয়। তবে, স্বয়ংক্রিয় ফন্ট সাজেশনগুলো এখনও ভিজ্যুয়াল মুডের সাথে সামঞ্জস্যহীন মনে হয়েছে।

আমাকে আমার মেন্টাল মডেল পরিবর্তন করতে হয়েছে।

টেক্সট-টু-থাম্বনেইল টুলগুলো কোনো বিল্ড পাইপলাইন (build pipeline) নয়। এগুলো হলো স্কাফোল্ডিং জেনারেটর (scaffolding generator)। এগুলো কাজ শুরু করার জন্য উপযোগী, কিন্তু মানুষের রিভিউ ছাড়া এগুলো প্রোডাকশন-রেডি (production-ready) কাজ তৈরি করতে পারে না।

যে ওয়ার্কফ্লোটি আসলে কাজ করে তা দেখতে এরকম:

  • উচ্চ-মানের, টেক্সটহীন ব্যাকগ্রাউন্ড প্লেট তৈরি করতে এআই ব্যবহার করুন।
  • সেই ব্যাকগ্রাউন্ডগুলো আপনার নিজস্ব এডিটরে ইমপোর্ট করুন।
  • আপনার নিজস্ব টেক্সট, ফন্ট এবং শ্যাডো ম্যানুয়ালি যোগ করুন।

এই পদ্ধতিতে আমার মাত্র চার মিনিট সময় লেগেছে। স্টক ফটো খোঁজা বা জটিল ব্যাকগ্রাউন্ড মাস্কিং করার চেয়ে এটি অনেক দ্রুত।

ক্রিয়েটরদের জন্য আমার পর্যবেক্ষণ:

  • এআই ডিজাইনের বিকল্প নয়। এটি কাঁচামাল তৈরির একটি উপায়।
  • টেক্সট রেন্ডারিং বর্তমানে অনির্ভরযোগ্য। আপনার টাইপোগ্রাফি নিজেই সামলান।
  • আসল ভ্যালু হলো ব্যাকগ্রাউন্ড জেনারেশন এবং কনসেপ্ট এক্সপ্লোর করার মধ্যে।

এআই একটি মুড বা মেজাজকে কাছাকাছিভাবে ফুটিয়ে তুলতে পারে, কিন্তু এটি কোনো সফল ফর্মুলাকে ক্লোন করতে পারে না। এটি সমস্যার সহজ অংশগুলো সমাধান করে, কিন্তু কঠিন অংশগুলো নয়।

উৎস: https://dev.to/sophie_bella_5f438de0c1c3/i-tried-to-automate-my-thumbnail-pipeline-with-ai-at-3-am-heres-what-actually-happened-1be5