لقد قمت بأتمتة سير عمل الصور المصغرة الخاص بي باستخدام الذكاء الاصطناعي. إليكم ما حدث.

أنا مطور backend. كما أدير قناة تقنية على يوتيوب. في الأسبوع الماضي، قضيت أربع ساعات في تصميم صورة مصغرة واحدة، ولم تحصل إلا على نسبة نقر إلى الظهور (click-through rate) بلغت 2.4%.

قررت اختبار نظرية ما. هل يمكن للذكاء الاصطناعي أن يحل محل عملية التصميم اليدوية الخاصة بي؟ هل يمكن لسير عمل تحويل النص إلى صورة مصغرة (text-to-thumbnail) أن ينجح في خط إنتاج محتوى حقيقي؟

كنت مخطئاً بشأن مدى سهولة الأمر.

المشكلة الأكبر تكمن في فن الخط (typography). في تصميم الصور المصغرة، يجب أن يكون النص قابلاً للقراءة في أقل من نصف ثانية. إذا لم يتمكن المشاهد من قراءة عنوانك على شاشة هاتف صغيرة، فإن الصورة تفشل.

جربت عدة أوامر (prompts). كانت معظم النتائج كارثية.

  • قام الذكاء الاصطناعي برسم عبارة "FIX IT" بخط ذائب وغير قابل للقراءة.
  • أخطأ في كتابة الكلمات لتصبح "FIXX IT".
  • وضع النص في مكان سيغطيه الطابع الزمني ليوتيوب.

كمطور، أتوقع من الأدوات أن تفشل مع رسائل خطأ واضحة. لكن الذكاء الاصطناعي يفشل بطريقة مختلفة؛ فهو يفشل بهدوء وعشوائية. لا يوجد سجل أخطاء (error log)، بل تحصل فقط على إجابة خاطئة مختلفة في كل مرة.

المشكلة هيكلية. نماذج الصور ليست محركات تخطيط (layout engines). فهي لا تفهم صناديق الإحاطة (bounding boxes) أو وضوح النص. إنها تنتج بكسلات تبدو صحيحة ولكنها لا تعمل بشكل جيد.

اختبرت Thumbs.ai لأرى ما إذا كانت الأدوات المتخصصة قد حلت هذه المشكلة. لقد كانت خطوة للأمام لأنها تفصل الخلفية عن النص، مما يسمح باستخدام الطبقات (layers). ومع ذلك، كانت اقتراحات الخطوط الآلية لا تزال تبدو غير متناغمة مع الحالة البصرية (visual mood).

كان عليّ تغيير نموذجي الذهني.

أدوات تحويل النص إلى صورة مصغرة ليست خط إنتاج (build pipeline)، بل هي مولد للهياكل الأولية (scaffolding generator). هي مفيدة للبدء، لكنها لا تستطيع إنتاج عمل جاهز للاستخدام النهائي دون مراجعة بشرية.

سير العمل الذي ينجح بالفعل يبدو كالتالي:

  • استخدم الذكاء الاصطناعي لإنشاء خلفيات عالية الجودة بدون نصوص.
  • استورد تلك الخلفيات إلى برنامج التحرير الخاص بك.
  • أضف نصوصك وخطوطك وظلالك الخاصة يدوياً.

استغرقت هذه الطريقة مني أربع دقائق فقط. وهي أسرع بكثير من البحث عن صور جاهزة (stock photos) أو عزل الخلفيات المعقدة.

استنتاجاتي لصناع المحتوى:

  • الذكاء الاصطناعي ليس بديلاً عن التصميم، بل هو وسيلة لإنتاج المواد الخام.
  • معالجة النصوص (text rendering) غير موثوقة حالياً؛ لذا تولَّ أنت أمر الخطوط.
  • القيمة الحقيقية تكمن في إنشاء الخلفيات واستكشاف المفاهيم.

يمكن للذكاء الاصطناعي محاكاة الحالة المزاجية، لكنه لا يستطيع استنساخ الصيغة الناجحة. إنه يحل الأجزاء السهلة من المشكلة، وليس الأجزاء الصعبة.

المصدر: https://dev.to/sophie_bella_5f438de0c1c3/i-tried-to-automate-my-thumbnail-pipeline-with-ai-at-3-am-heres-what-actually-happened-1be5